"Programmieren in C" - 2. Zeichen, Zeichensätze und Tokens

2. Zeichen, Zeichensätze und Tokens

2.1. Zeichen

Ein C-Programm ist eine Folge von Zeichen aus einem Zeichensatz. Üblicherweise werden dabei folgende Zeichen verwendet:

1. Die 52 Groß- und Kleinbuchstaben:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
a b c d e f g h i j k l m n o p q r s t u v w x y z

2. Die 10 Ziffern:
0 1 2 3 4 5 6 7 8 9

3. Das Leerzeichen

4. Der horizontaler und der vertikaler Tabulator sowie der Seitenvorschub

5. Die folgenden 29 Zeichen:
! " % & ( ) = . , : ; + - * / # ~ { } [ ] < > | ’ _ \ ? ^

Zusätzlich wird ein Zeichen oder eine Zeichenfolge benötigt, die das Ende der Programmzeilen angibt. Alle weiteren Zeichen (z.B. für die Formatierung des Quelltextes) werden als Leerzeichen angesehen und beeinflussen den Quelltext in keiner Weise.

2.2. Zeichensatz im ausführenden Programm

Der Zeichensatz, der für das Programm während der Ausführung verwendet wird, muss nicht identisch sein mit dem Zeichensatz, der für die Eingabe der Quelltexte verwendet wird. Daher kann es bei der Ein- und Ausgabe zu unerwünschten Effekten kommen. So werden z.B. bei einem Konsolen-Programm, das unter MS Windows eingegeben und in einem DOS-Fenster ausgeführt wird, die deutschen Umlaute in der Bildschirmausgabe nicht korrekt angezeigt.

Um diese Probleme zu umgehen, müssen diese Zeichen als ASCII-Werte (oktal) in den Quelltext eingegeben werden.

Beispiel:

kap02_01.c

01 #include <stdio.h>
02
03 int main()
04 {
05 printf("Deutsche Umlaute\n\n");
06
07 printf("Linux-Konsole (ISO-8859):\n");
08 printf("ae = \344\n");
09 printf("oe = \366\n");
10 printf("ue = \374\n\n");
11
12 printf("DOS-Eingabeaufforderung:\n");
13 printf("ae = \204\n");
14 printf("oe = \224\n");
15 printf("ue = \201\n\n");
16
17 return 0;
18 }

2.3. Weiße Leerzeichen und Zeilenende

In einem C-Programm werden das Leerzeichen, das Zeilenende, der horizontale und der vertikaler Tabulator und der Seitenvorschub als Weiße Leerzeichen (White Spaces) bezeichnet. Auch Kommentare werden wie weiße Leerzeichen behandelt (siehe Abschnitt Kommentare). Diese Zeichen werden ignoriert, da sie nur zum Trennen von benachbarten Tokens dienen - mit Ausnahme, wenn diese Zeichen in konstanten Zeichen bzw. Zeichenketten stehen.

Weiße Leerzeichen werden im allgemeinen verwendet, um ein C-Programm für uns Menschen lesbarer zu machen (siehe Kapitel Gestaltung von C-Programmen).

Das Zeilenende-Zeichen bzw. -Zeichenfolge markiert das Ende einer Quelltextzeile. Manche C-Compiler interpretieren die Eingabetaste, den Seitenvorschub und den vertikalen Tabulator auch als Ende einer Quelltextzeile. Dies ist wichtig für das Erkennen, wann eine Präprozessorzeile (siehe Kapitel Präprozessorbefehle) zu Ende ist.

Eine Quelltextzeile kann in der nächsten Editor-Zeile fortgeführt werden, wenn sie mit einem Backslash ('\') oder mit dem Trigraph '??/' (siehe nächsten Abschnitt Trigraphen) beendet wird. Im C99-Standard lassen sich damit sogar Tokens aufsplitten. Beim Compilieren wird der Backslash bzw. der Trigraph samt Zeilenende beseitigt, um eine längere, logisch zusammenhängende Zeile zu erzeugen. Dies geschieht nach dem Konvertieren der Trigraphen und der Multibyte-Zeichen, aber noch vor dem Präprozessor und dem eigentlichen Compiliervorgang.

Beispiel:

Die Zeilen

if (a == b) x = 1; el\
se x = 2;

werden umgewandelt in

if (a == b) x = 1; else x = 2;

Viele C-Compiler lassen nur eine bestimmte Länge für die Quelltextzeilen - vor und nach dem Umwandeln - zu. Der C89-Standard erlaubt logische Zeilen bis maximal 509 Zeichen, der C99-Standard bis maximal 4.095 Zeichen.

2.4. Trigraphen

Mit dem Standard-C wurden einige Zeichenfolgen eingeführt, mit denen wichtige Zeichen dargestellt werden können, auch wenn der Quelltext mit einem Zeichensatz geschrieben wird, der diese Zeichen nicht beinhaltet. Da diese Zeichenfolgen immer aus drei Zeichen bestehen, werden diese auch Trigraphen genannt. Trigraphen werden auch in konstanten Zeichenfolgen erkannt und umgesetzt. Das Umwandeln der Trigraphen erfolgt beim Aufruf des Compilers als erstes, sogar noch vor dem Präprozessor. Es gibt genau neun Trigraphen, alle anderen Zeichenfolgen, die mit zwei Fragezeichen beginnen, werden nicht verändert.

Trigraph	Ersetzt	Trigraph	Ersetzt

??(	[	??)	]
??<	{	??>	}
??/	\	??!	\|
??'	^	??-	~
??=	#

Beispiel:

Um eine konstante Zeichenfolge mit einem Backslash auszugeben, müssen zwei aufeinander folgende Backslashs geschrieben werden. Jeder dieser Backslash kann wieder in einen Trigraphen umgesetzt werden. Daher wird mit der Zeichenfolge "??/??/" ein Backslash "\" ausgegeben.

Um zu verhindern, dass eine Zeichenfolge als Trigraph interpretiert wird, muss das zweite Fragezeichen durch '\?' ersetzt werden. Um die Zeichenkette "Wer??!" zu erhalten, muss also "Wer?\?!" eingegeben werden.

kap02_02.c

01 #include <stdio.h>
02
03 int main()
04 {
05 printf("Trigraphen:\n\n");
06
07 printf("Backslash: ??/??/\n");
08 printf("Wer??! oder Wer?\?!\n");
09
10 return 0;
11 }

Bei manchen Compiler muss explizit angegeben werden, dass Trigraphen verwendet werden. Zum Beispiel muss beim GNU-C-Compiler gcc zusätzlich die Option -trigraphs angegeben werden.

2.5. Multibytes und Wide Characters

Mit C95 wurden die Multibytes und Wide Characters eingeführt. Damit können auch Zeichensätze verwendet werden, die mehr als 256 Zeichen beinhalten. Auf diese speziellen Zeichen wird im Kapitel Datentypen in C weiter eingegangen.

2.6. Kommentare

Kommentare werden vom Compiler komplett ignoriert, d.h. sie werden wie weiße Leerzeichen behandelt. Kommentare sollen zum Verständnis des Quelltextes dienen bzw. dem Leser wichtige Hinweise geben.

Ein Kommentar beginnt mit den zwei Zeichen /* und endet mit den zwei Zeichen */. Dazwischen können beliebig viele Zeichen - einschließlich Zeilenumbrüche - stehen. Im Standard-C können Kommentare nicht geschachtelt werden.

In C99 wurden zusätzlich Zeilenkommentare eingeführt. D.h. ein Kommentar kann auch mit // beginnen. Dieser Kommentar endet dann automatisch am Ende der Zeile.

Kommentare werden nicht innerhalb von konstanten Zeichen oder Zeichenketten - also innerhalb von Anführungszeichen - erkannt.

Kommentare werden noch vor dem Präprozessor entfernt, so dass Präprozessorbefehle innerhalb von Kommentaren nicht erkannt werden können. Auch haben Zeilenumbrüche innerhalb von Kommentaren keinerlei Auswirkungen auf die Programmzeile, in der der Kommentar steht.

Standard-C schreibt vor, dass alle Kommentare durch ein einzelnes Leerzeichen ersetzt werden sollen. Einige ältere Compiler löschen wohl die Kommentare, aber setzen dafür kein Leerzeichen ein. Dies kann fatale Folgen haben, da ohne Leerzeichen die Texte vor und hinter dem Kommentar nahtlos zusammengeschrieben werden.

Kommentare sollten nicht dafür genutzt werden, um größere Programmteile auszukommentieren. Denn ist in diesem Programmteil selber wieder ein Kommentar (geschachtelte Kommentare; siehe oben), wird nicht wirklich das ganze Programmteil auskommentiert. Ein Compilerfehler ist die Folge.

2.7. Tokens

Die Zeichen, aus denen das C-Programm besteht, werden in sogenannten Tokens unterteilt. Es gibt fünf Gruppen von Tokens: Operatoren, Trennzeichen, Bezeichner, Schlüsselwörter und Literale.

Benachbarte Tokens werden am besten durch weiße Leerzeichen getrennt. Vor und nach Operatoren müssen keine weißen Leerzeichen stehen; der Compiler setzt dann von links nach rechts immer die längstmöglichen Tokens zusammen, auch wenn das Ergebnis kein gültiges C-Programm mehr ist. Von daher sollten auch hier weiße Leerzeichen verwendet werden.

Beispiele:

In der folgenden Tabelle werden verschiedene Zeichenfolgen und deren Erkennung in C-Tokens dargestellt. Dabei werden die einzelnen erkannten C-Tokens mit einem Komma getrennt.

Zeichenfolge	C-Tokens

forwhile	forwhile
b>x	b, >, x
b->x	b, ->, x
b--x	b, --, x
b---x	b, --, -, x

Im ersten Beispiel werden die Schlüsselwörter for und while nicht als einzelne Tokens erkannt, da sie nicht mit einem weißen Leerzeichen getrennt wurden.

Das vierte Beispiel erzeugt einen Fehler beim Compilieren, da hier die Tokens falsch erkannt werden. Richtig erkannt werden sie erst mit dem Einsetzen von weißen Leerzeichen: b - -x. Dann wird nämlich das erste Minuszeichen als Operator für die Subtraktion und das zweite Minuszeichen als Vorzeichen für die Variable x erkannt.

Das fünfte Beispiel ist für den Leser nicht klar: Es kann b-- - x oder b - --x gemeint sein. Erst durch die Regel, dass von links nach rechts immer die längstmöglichen Tokens erkannt werden, macht klar, dass der Compiler tatsächlich die erste Variante erkennt. Wird die zweite Variante gewünscht, müssen entsprechende weiße Leerzeichen eingefügt werden.

2.8. Operatoren und Trennzeichen

Die im Standard-C gültigen Operatoren und Trennzeichen sind in der folgenden Tabelle aufgelistet. Um Programmierer zu unterstützen, deren Tastatur die geschweiften und eckigen Klammern und die Raute (#) nicht enthalten, können auch die alternativen Schreibweisen verwendet werden: <%, %>, <:, :>, %: und %:%:.

Im traditionellen C werden die zusammengesetzten Zuweisungsoperatoren als zwei seperate Tokens erkannt - nämlich als Operator und als Gleichheitszeichen. Hier dürfen also auch weiße Leerzeichen zwischen Operator und Gleichheitszeichen verwendet werden. Im Standard-C dagegen werden die zusammengesetzten Zuweisungsoperatoren als ein einzelnes Token erkannt; entsprechend dürfen im Standard-C keine weißen Leerzeichen zwischen Operator und Gleichheitszeichen eingefügt werden.

Bezeichnung	Tokens

Einzelne Operatoren	! % ^ & * - + = ~ \| . < > / ?
Zusammengesetzte Zuweisungsoperatoren	+= -= *= /= %= <<= >>= &= ^= \|=
Andere zusammengesetzte Operatoren	-> ++ -- << >> <= >= == != && \|\|
Trennzeichen	( ) [ ] { } , ; : ...
Alternative Schreibweise für Trennzeichen	<% (geschweifte Klammer auf) %> (geschweifte Klammer zu) <: (eckige Klammer auf) :> (eckige Klammer zu) %: (Raute) %:%: (zwei Rauten hintereinander)

Beispiel:

kap02_03.c

01 %:include <stdio.h>
02
03 int main()
04 <%
05 int Array<:10:> = <% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 %>;
06
07 printf("Array[5] = %i\n", Array<:5:>);
08
09 return 0;
10 %>

Die alternativen Schreibweisen für Trennzeichen werden nicht von allen Compilern unterstützt.

2.9. Bezeichner

Bezeichner sind Namen für Konstanten, Variablen, Datentypen, Klassen, Funktionen oder Makros. Sie bestehen aus einer Folge von Buchstaben, Ziffern und dem Unterstrich; sie dürfen allerdings nicht mit einer Ziffer beginnen und dürfen keine Schlüsselwörter sein. Dabei wird bei den Buchstaben zwischen Groß- und Kleinschreibung unterschieden, d.h. die Bezeichner abc und ABC sind zwei unterschiedliche Bezeichner.

Seit C99 dürfen Bezeichner auch andere universelle oder systemabhängige Multibyte-Zeichen beinhalten. Diese dürfen wie die Ziffern nicht als erstes Zeichen verwendet werden und müssen ähnlich wie Buchstaben sein. Eine Liste der für Bezeichner erlaubten Zeichen ist im C99-Standard ISO/IEC 9899: 1999 und im ISO/IEC TR 10176-1998 zu finden. Darauf wird in diesem Skript nicht weiter eingegangen.

Neben den Schlüsselwörtern muss man aufpassen, nicht einen Bezeichner der Standard-Bibliotheken doppelt zu verwenden. Viele dieser Bezeichner fangen mit einem Unterstrich an, gefolgt von entweder einem zweiten Unterstrich oder einem Großbuchstaben. Daher sollten keine Bezeichner verwendet werden, die mit einem Unterstrich beginnen.

Während Bezeichner im Prinzip beliebig lang sein dürfen - sie dürfen maximal so lang sein, wie eine Programmzeile lang sein darf -, wird nur eine bestimmte (signifikante) Anzahl von Zeichen zur Unterscheidung der Bezeichner verwendet. Vor dem C89-Standard betrug sie manchmal nur 8 Zeichen (Compilerabhängig; schließlich gab es damals noch keinen Standard), im C89-Standard betrug sie mindestens 31 Zeichen und im C99-Standard mindestens 63 Zeichen.

Beispiel:

Vor dem C89-Standard waren für einen Compiler die beiden Bezeichner LangerBezeichner und LangerBezeichnerNeu identisch, da nur die ersten 8 Zeichen zur Unterscheidung verwendet wurden.

Für externe Bezeichner - also Bezeichner, die mit dem Schlüsselwort extern deklariert werden - gelten weitere Einschränkungen, da diese Bezeichner unter Umständen auch von anderen Compilern, Linkern oder Debugger, die stärkere Begrenzungen haben, bearbeitet werden müssen. So fordert der C89-Standard vom Compiler, dass externe Bezeichner eine maximale Länge von mindestens 6 Zeichen haben dürfen. Der C99-Standard hat dies auf mindestens 31 Zeichen erweitert.

2.10. Schlüsselwörter

Die Bezeichner, die in der folgenden Tabelle aufgelistet werden, sind Schlüsselwörter (engl. keywords) und dürfen anderweitig nicht als Bezeichner (z.B. als Variablen) verwendet werden. Schlüsselwörter dürfen aber als Präprozessor-Makronamen verwendet werden, da der Präprozessor diese Makronamen umsetzt bevor der Compiler mit der Erkennung der Schlüsselwörter beginnt.

auto	_Bool ¹	break	case	char	_Complex ¹
const	continue	default	do	double	else
enum	extern	float	for	goto	if
_Imaginary ¹	inline ¹	int	long	register	restrict ¹
return	short	signed	sizeof	static	struct
switch	typedef	union	unsigned	void	volatile
while

¹ Diese Schlüsselwörter sind erst im C99-Standard enthalten. Davon ist aber nur das Schlüsselwort inline auch in C++ ein Schlüsselwort!

Mit dem C11-Standard sind noch folgende Schlüsselwörter dazu gekommen:

_Alignas	_Alignof	_Atomic	_Generic
_Noreturn	_Static_assert	_Thread_local

Zusätzlich haben einige Compiler als Spracherweiterung die Schlüsselwörter asm (Schlüsselwort in C++) und fortran. Ferner sind in der Headerdatei iso646.h die Makros and, and_eq, bitand, bitor, compl, not, not_eq, or, or_eq, xor und xor_eq definiert, die in C++ zu den Schlüsselwörter gehören.

2.11. Literale

Es gibt vier verschiedene Arten von Literalen (engl. literals): Ganze Zahlen, Fließkommazahlen, Zeichen und Zeichenketten. Manchmal werden Literale auch fälschlicherweise "Konstante" genannt; sie müssen aber von den unveränderlichen Variablen, Konstanten und Datentypen unterschieden werden.

Jedes Literal ist gekennzeichnet durch Wert und Datentyp. Die Formate der verschiedenen Literale werden im Kapitel Datentypen in C vorgestellt.

Voriges Kapitel: 1. Einführung

Nächstes Kapitel: 3. Variablen