Unicode

Us der alemannische Wikipedia, der freie Dialäkt-Enzyklopedy
Hops zue: Navigation, Suech
Dialäkt: Züritüütsch

Unicode isch en internationale Standard, wo langfristig für jedes sinnträgende Zeiche bzw. Tekschtelement vo allne bekannten Schriftkulture und Zeichesyschtem än digitale Code feschtgläit wird. Er will s'Problem vo dä verschiedene inkompatible Kodierige i dä underschiedliche Länder besytige. Herkömmlichi Computer-Zeichensyschtem umfassed än Zeichevorrat von entweder 128 (7 Bit) Zeiche wie dä sehr bekannti ASCII-Standard oder 256 (8 Bit) Zeiche, wie z.B. ISO Latin-1, wobii detä nach Abzug vo dä Stüürzeiche 96 Elemänt bi ASCII und 192–224 Elemänt bi dä 8-Bit ISO-Zeichesätz als Schrift- und Sonderzeiche darschtellbar sind. Diä Zeichekodierige erlaubed die gliichzytig Darschtellig von nur wenige Schprache im gliiche Tekscht, wenn mer sich nöd demit behilft, imene Tegscht verschiedeni Schrifte mit underschiedliche Zeichesätz z'verwende. Das hät bisher dä internationali Dateuustuusch starch behinderet.

In Unicode finded Zeiche vo dä wichtigschte Industriestandard-Zeichesätz wie d'ISO-Norme ä 1:1-Entsprechig (das bedütet, dass binere Konversion vom Industriestandard zu Unicode und zrugg s'gliiche Ergebnis usechunnt). Hüt erlediged die meischte Webbrowser die Darstellig vo dene Zeichesätz mit ere Unicode-kodierte Schrift i dä Regel perfekt und vom Benutzer unbemerkt.

ISO 10646 isch die vo ISO verwendeti praktisch bedeutungsgliichi Bezeichnig vom Unicode-Zeichesatz; er wird det als Universal Character Set (UCS) bezeichnet.

Codes, Speicherig und Überträgig[ändere | Quälltäxt bearbeite]

D'Codes vo Unicode-Zeiche werded hexadezimal mit voraageschtelltem „U+“ dargschtellt. Derbii chan „x“ als Platzhalter verwendet werde, wenn zämehängendi Bereich gmeint sind, wie z.B. „U+01Fx“ für dä Codebereich U+01F0–U+01FF.

Dä Coderuum vo Unicode hät urschprünglich 65'536 Zeiche umfasst (UCS-2, 16 Bit). Bald aber hät sich das als unzuereichend use gschtellt. I dä Version 2.0 isch dä Codebereich um wiiteri 16 gliich große Bereich, sogenannti Planes (Ebene) erwiiteret worde. So sind jetz maximal 1'114'112 (220+216) Zeiche bzw. Codepoints im Codebereich vo U+00000 bis U+10FFFF vorgsee (UCS-4, 32 Bit). Bis zur Unicode-Version 4.0, sind 96'382 Codes individuelli Zeichen zuegordnet. Das entspricht erst öppe 9% vom gsamte Coderuum.

Diä Codebereich (Blöck) wo d'Unicode-Ebene drin underglidert werded sind i dä Lischte dvo dä Unicode-Blöck vollschtändig uufgfüert. Zuesätzlich zu dä gültig kodierte Zeiche isch au sehr langfrischtig, z. T. noch recht ungenau Plaants uufgfüert.

D'Speicherig und d'Überträgig von Unicode erfolgt in underschiedliche Formate:

  • Unicode Transformation Format (UTF), wobii UTF-8 s'gebrüchlichschte isch, z.B. im Internet und i fascht allne Betriebssystemen. Näbed UTF-8 hät UTF-16 ei grossi Bedütig, so z.B. als Zeichecodierung in Java, wo em Unicode UCS-4 für alli UCS-2 Codepoints entschpricht, und alli andere Codepoints als Zweiersequenze, diä sogenannte Surrogate Pairs, abbildet.
  • SCSU (Standard Compression Scheme for Unicode, früener au als RCSU – Reuters' Compression Scheme for Unicode – bezeichnet) isch ä Methode zur platzsparende Schpeicherig, wo diä Aaordnig vo dä verschiedene Alphabet i Blöck uusnutzt (lueg auc bi dä Weblinks).
  • UTF-EBCDIC isch ä Unicode-Erwiiterig, wo ufem proprietäre EBCDIC-Format von IBM-Großrechner uufbout.
  • Punycode dient dezue, Domainnamen mit nicht-ASCII-Zeiche z'kodieren. Lueg au under: IDNA.
  • Usserdem gits no diä Format CESU-8 und GB18030.

Normierigs-Inschtituzione[ändere | Quälltäxt bearbeite]

S'gemeinnützige Unicode Consortium isch 1991 gründet worde und isch für dä Industriestandard Unicode verantwortlich. Vo dä ISO (International Organization for Standardization) wird diä internationali Norm ISO 10646 usägee. Beidi Inschtituzione schaffed eng zäme. Sit 1993 sind Unicode und ISO 10646 bezüglich dä Zeichekodierig identisch. Während ISO 10646 lediglich diä eigentlichi Zeichekodierig feschtleit ghört zum Unicode es umfassends Regelwerch, wo u. a. für alli Zeiche wiiteri zur konkrete Aawendig wichtigi Eigenschafte (sogenannti Properties) eidüütig feschleit wie Sortierreihefolg, Läserichtig und Regle für s'Kombiniere vo Zeiche.

Zur Zyt isch Unicode strenggnoo no ä Undermengi von ISO 10646: Während ISO 10646 Zeichecodes mit bis zu 31 Bit zuelaat, sind bi Unicode maximal 21 Bit erlaubt.

Kodierigskriterie[ändere | Quälltäxt bearbeite]

Andersch als anderi Norme gits bi Unicode d'Bsunderheit, dass eimal kodierti Zeiche niemals wider entfernt werded, zum d'Langläbigkeit vo digitale Date z'gwährleischte. Sött sich die Normierig vomene Zeiche nachträglich als Fähler erwiise, wird allenfalls vo sinere Verwendig abgraaten. Drum bruucht d'Uufnahm vomene Zeiche in Standard e üsserscht sorgfältigi Prüefig, wo sich au emal über Jahre hiizieh chann.

Im Unicode werded „abschtrakti Zeiche“ (engl.: characters) kodiert, nöd Glyphen. S'Letschtere isch die grafisch Darschtellig vo abschtrakte Zeiche, wo extrem underschidlich uusfalle chönd, bim latiinische Alphabet byschpilswiis in Fraktur, Antiqua, im Irischen und in Handschriften, lueg au bi Glyphe. Für Glyphevariante, wo d'Normierig als sinnvoll und notwendig naagwise wird, sind vorsorglich 256 „Variation Selectors“ vorgseh, wo ggf. am eigentliche Code naagschtellt werde chönnd.

Anderersiits händ Schrifte, wo sowohl s'latiinische wie au s'griechische Alphabet enthalted, dopplet kodierti identischi Glyphe für die folgende mehrdütige Buchstabe: Α Β Ε Ζ Η Ι Κ Μ Ν Ο Ρ Τ Υ Χ. Vo vile Zeiche gits nöd nur dur d'Schriftart bedingti Variante sondern au innerhalb vonere Schriftart meh oder minder notwendigi sprach-, schrift- oder kontextabhängigi Glyphevariante und Ligature, wo denn zur Darschtellig sogenannti Smartfonttechnike wie OpenType nötig sind, aber kei Unicode-Kodierig bruuched. Grundsätzlich werded kei Ligature und suschtigi zämegsetzti Zeiche kodiert, au wenn d'Gründ für die Politik nöd vo jedermann verschtande werded. Lediglich zum Zweck vo der Kompatibilität mit elterä Zeichesätz sind Ligature und zämegsetzti Zeiche enthalte.

In Grenzfäll wird härt um d'Entscheidig grunge, öbs sich um Glyphevariante oder kodierigswürdigi Zeiche, d. h. underschiedlichi (Grapheme) handlet. Byschpilswiis sind nöd wenigi Fachlüüt der Meinig, s'phönizische Alphabet chönni mer als Glyphevariante vom hebräischen betrachte, wil dr gsamti Zeichevorrat vom Phönizischen det eidütigi Entsprechige hät, und au wil die beide Schprache sehr äng verwandt sind. Die Uuffassig, es handli sich um es separats Zeichesyschtem, i der Unicode-Terminologie „script“, hät sich letschtlich duregsetzt. Andersch verhaltets sich bi CJK (Chinesisch, Japanisch und Koreanisch): Da händ sich im 20. Jahrhundert d'Forme vo vile gliichbedütende Schriftzeiche usenandentwickelt. Trotzdem teiled sich die sprachschpezifische Glyphe die gliiche Codes im Unicode. I der Praxis werded da wohl überwiegend sprachschpezifischi Schriftarte verwendet, und die zeichned sich scho dur ussergwöhnlichi Dateigrössene uus. Die einheitlichi Kodierig vo de CJK-Schriftzeiche (Han Unification) isch eini vo de wichtigschte und umfangriichschte Vorarbete für d'Entwicklig von Unicode gsii. Bsunders in Japan isch si durchuus umschtritte. Zu Einzelheite (engl.) lueg bi de Weblinks.

Wo de Grundschtei für Unicode gleit worde isch, hät müesse berücksichtigt werde, dass bereits e Vielzahl vo underschiedliche Kodierige i verbreitetem Iisatz gsii sind. Unicode-basierti Syschtem händ sölle herkömmlich kodierti Date mit gringem Uufwand handhabe chönne. Für das sind für die undere 256 Zeiche die wiit verbreiteti ISO 8859-1-Kodierig (Latin1) biibhalte genau gliich wie d'Kodierigsarte vo verschiedene nationale Norme, z. B. TIS 620 für Thailändisch (fascht identisch mit ISO 8859-11) oder ISCII für indische Schrifte, wo i der urschprüngliche Reihefolg lediglich in höcheri Codebereich verschobe worde sind.

Jedes Zeiche vo massgebliche veraltete Kodierige sind in Standard übernoo worde, au wenns de normalerwiis aagleite Massstäb nöd grecht wird. Derbii handlets sich zumene grosse Teil um Zeiche, wo us zwei oder meh Zeiche zämegsetzt sind, wie Buchstabe mit diakritische Zeiche. Im übrigen verfüegt au hüt no en grosse Teil vo der Software nöt über d'Möglichkeit, Zeiche mit Diakritika ordentlich zäme zsetze. Die exakti Feschtlegig vo äquivalente Kodierige isch Teil vom zum Unicode ghörende umfangriiche Regelwerch. Au wenn die hexadekadische Ziffere A bis F formal d'Kriterie für e gsonderti Kodierig erfülled, hät das müesse underbliibe, wil i dr Praxis dene ihri Funktion stets vo de Buechschtabe A bis F übernoo wird.

Vilne Unicode-Zeiche isch kei Glyphe zuegordnet. Au sie gelted als „characters“. Nebed de Stüürzeiche wie Zeilevorschuub (U+000A), Tabulator (U+0009) usw. sind elei 19 Zeiche explizit als Leerzeiche definiert, sogar senigi ohni Breiti, wo u. a. als Worttrenner bruucht werded für Sprache wie Thai oder Tibetisch, wo ohni Wortzwüscheruum gschriebe werded. Für bidirektionale Text, z. B. Arabisch und Lateinisch sind siebe Formatierigszeiche nötig.

Byschpiil: Combining Grapheme Joiner (CGJ)[ändere | Quälltäxt bearbeite]

De CGJ isch es unsichtbars Sonderzeichen, wo normalerwiis vo de Aawendigsprogramm völlig ignoriert wird (engl.: „default ignorable“). Er söll uusdrücklich nöd zur Kennzeichnig vo Glyphenvariante o. Ä. verwendet werde. Sin Gebruuch isch wie folgt definiert:

I einzelne Schprache gits Digraphe und Trigraphe, wo grundsätzlich als eigenschtändigi Buechschtabe behandelt, d. h. gsonderet sortiert werded. Im Ungarische byspilswiis betrifft das: cs, dz, dzs, gy, ly, ny, sz, ty und zs. Zum Uusnahme vo dem bi Bedarf z'kennzeichne, isch de „Combining Grapheme Joiner“ CGJ (U+034F) iigfüehrt worde. De Name bedütet eigentli s'Gegenteil, aber, au das ghört zum Standard, au d'Näme vo kodierte Zeiche werded niemals gänderet.

Träit en Buechschtabe mehreri Diakritika drüber oder drunder, werded die normalerwiis vertikal gschtaplet. Für Uusnahmefäll, wo zwei Diakritika nebedenand staa müend, gseht Unicode vor, dass en CGJ dezwüsche gschtellt wird. De Schriftentwickler dörf entscheide, die Erschiinigsform vo de Zeichefolge „Diakritikon1 CGJ Diakritikon2“ feschtzlege, wo dänn mittels Schrifttechnik wie OpenType zueggriffe werde chan.

D'Eigenschaft „default ignorable“ wo im Standard feschtgleit isch qualifiziert de CGJ, i Sonderfäll au anderi suscht unnötigi fiini Underschiid z'markiere. So chan d'Dateverarbeitig vo düütsche Bibliotheke die Underscheidig vo Umlaut und Trema (meischtens für fremdsprachigi Näme) erfordere. Da empfiehlt Unicode, dem Trema (U+0308) de CGJ voraazschtelle, um das als Umluut z'kennzeichne. Di urschprünglich vo DIN vorgschlageni nachträglichi gsondert Kodierig vo de Umluut-Punkt hett zunere chuum vertretbare Inkonsischtenz vo grosse Datemenge gfüehrt.

Iigabe-Methode[ändere | Quälltäxt bearbeite]

Will mer es Unicode-Zeiche (zum Byspil „⊕“) in HTML oder XML verwände, suecht mer das zerscht emal us dr entsprächende Tabelle (i dem Fall: Mathematischi Symbol). Det isch sini Zeichenummere hexadezimal aagee. Mit dere Zeichenummere erschtellt mer dänn e Zeiche-Entität durs Voraaschtelle vo „&#x“ und Aafüege vomene Semikolon, ebe „⊕“. Diä Zeichenummere cha i de Zeiche-Entität au dezimal, dänn aber ohni füehrends „x“, aagee werde, zum Byspil „⊕“ fürs gliiche Zeiche. D'Text Encoding Initiative TEI hät Empfählige erarbeitet, Unicode i XML-Dateie inere liechter verschtändliche Form iizgee. Derbii handlets sich um en Satz vo benannte Zeiche (engl.: named entites), wo i s'Stylesheet integriert wird. Allgemein üblichi benännte Zeiche sind z. B. d'Umluut wie „Ä“ statt „Ä" für Ä.

Im Vi Improved chan mer Unicode-Zeiche (Voruussetzig: Unicode-basierti Locale oder als Unicode, zum Byspil UTF-8, erchännti Datei) iigee, indem mer Strg+V,U und dänn di hexadezimali Zeichenummere truckt, also zum Byspil Strg+V,U,2,0,A,C fürs Euro-Zeiche. E alternatiivi Iingabemöglichkeit isch d'Benutzig vo de Digraph-Methode vom Vim.

In Emacs ab Version 21.4 cha mer Unicode-Zeiche iigee, indem mer META-x ucs-insert und dänn di hexadezimali Zeichenummere iigit.

Under Windows (ab Windows 2000) cha i vile Programm de Code hexadezimal iigee werde. Mit nachfolgendem Alt-x, innerhalb vo MS Word 2003 aber Alt-c, wird s'Zeiche erzügt. Die Taschtekombination cha under Windows XP au benutzt werde, zum de Code vo vor em Cursor stehende Zeiche aaz'zeige.

Öb das entsprechendi Unicode-Zeiche au tatsächlich am Bildschirm erschiint, hangt dervo ab, öb die verwendeti Schriftart e Glyphe für das gwünschti Zeiche (also e Grafik für di gewünschti Zeichenummere) enthaltet. Oft, z.B under Windows wird, falls di verwendeti Schrift es Zeiche nöd enthaltet, nach Möglichkeit es Zeiche us enere andere Schrift iigfüegt. I dere Typografie gilt so öppis als Fehler namens Zwiebelfisch. In Webbrowser hingäge isch das zwar hässlich aber überuus nützlich.

Schriftarte[ändere | Quälltäxt bearbeite]

Underdesse hät de Zeichesatz vo Unicode/ISO en Umfang erreicht, wo sich nümme vollschtändig in einere Schriftdatei underbringe laat. Postscript-CFF-, TrueType- und OpenType-Schriftdateie chönd maximal 65'536 Zeiche enthalte. So verschtaat's sich vo elei, dass Unicode/ISO-Konformität vo ere Schrift nöd bedüütet, dass de kompletti Zeichesatz enthalte sii mues, sondern lediglich, dass die enthalteni Zeicheuuswahl normgrächt kodiert isch. Normalerwys wird e Uuswahl troffe wo am Verwendigszweck oder Verbreitigsgebiet aagmesse isch. Die derzyt umfangrychschti Schrift – i zwei Dateie uufgteilt – isch Code 2000/Code 2001 vom James Kass. Ä Übersicht über vili koschteloosi und kommerzielli, umfangriichi und spezialisierti Unicode-Schrifte büütet Allan Wood.

Dialäkt: Bodeseealemannisch (Linzgau)

Installiere vu Schriftarte[ändere | Quälltäxt bearbeite]

So kaa me d neetige Schrifte im Windows noochinstalliere:

  • Unter Windows 98:

1. Am besten one vu de obe erwähnte Schriftarte rabladen und installiere, bzw. d TTF-Datei i de Ordner Fonts (normalerwiis C:\Windows\Fonts) inikopiere. 2. Unter "Start -> Einstellungen -> Systemsteuerung" findet me s Symbol "Software". Obe uf "Windows Setup" klicke und d "Sprachunterstützung" mit "Details..." erwiitere. 3. Office-CD iilege und bi "Benutzerdefinierter Installation" bloos di entsprechende Schriftarte uuswähle. 4. Windows-Internetupdate starte und d Sproochunterstützunge und Schrifte i de Rubrik 'nicht dringende Updates' aawähle und installiere. (bloos we me de Internet Explorer dezue nimmt)

  • Unter Windows 2000:

I de Systemsteuerung findet sich e Symbol Ländereinstellungen. Im Feld Allgemein giit s eine Liste Spracheinstellungen fir s System. Doo mo me be alle Sproochfamilene wo aazoegt were sollde, e Häkle mache.

  • Unter Windows XP:

I de Systemsteuerung findet sich e Symbol Regioons- und Sproochoptionen. Im Feld Sprachen moss bei Dateien für ostasiatische Sprachen installieren und/oder bei Dateien für Sprachen mit komplexen Schriftzeichen und Zeichen mit Rechts-nach-Links-Schreibung installieren e Häkle gsetzt were.

Dialäkt: Züritüütsch

Versione vo Unicode[ändere | Quälltäxt bearbeite]

I dä letschte Jahre sind neui Versione jewiils im Früehjahr erschine, wobii i dä letschte Zyt jährlich um diä 1'000 Zeiche neu uufgnoo werded.

  • DP 10646 1989 (Vorschlaag für dä Entwurf vo ISO 10646, unabhängig vo Unicode)
  • DIS-1 10646 1990 (Erschte Entwurf für ISO 10646, unabhängig vo Unicode)
  • Unicode 1.0.0 Oktober 1991
  • Unicode 1.0.1 Juni 1992 (Modifikatione zum ä Zämefüehrig mit ISO 10646 z'ermögliche)
  • Unicode 1.1.0 Juni 1993 (Unicode und ISO-Norm erschtmals vereiniget: Codes idäntisch zu ISO 10646-1: 1993)
  • Unicode 1.1.5 Juli 1995
  • Unicode 2.0.0 Juli 1996 (Abgliich mit ISO 10646 Erwiiterige)
  • Unicode 2.1.2 Mai 1998 (unter anderem Iifüehrig vom Eurozeiche)
  • Unicode 2.1.5 August 1998
  • Unicode 2.1.8 Dezember 1998
  • Unicode 2.1.9 April 1999
  • Unicode 3.0.0 September 1999 (Abgliich mit ISO 10646-1: 2000)
  • Unicode 3.0.1 August 2000
  • Unicode 3.1.0 März 2001 (Abgliich mit ISO 10646-2: 2001)
  • Unicode 3.1.1 August 2001
  • Unicode 3.2.0 März 2002
  • Unicode 4.0.0 April 2003 (Abgliich mit ISO 10646: 2003)
  • Unicode 4.0.1 März 2004
  • Unicode 4.1.0 März 2005
  • Unicode 5.0.0 geplant für März 2006

Software[ändere | Quälltäxt bearbeite]

S'freye Programm „gucharmap“ (für Linux/UNIX) stellt dä Unicode-Zeichesatz uf em Bildschirm dar und büütet zuesätzlichi Informatione zu dä einzelne Zeiche. Microsoft Windows liferet entschprechend "charmap.exe" (Zeichetabelle) mit. Under Apple Mac OS X stellt dä Finder ebefalls ä Zeichepalette zur Verfüegig.

Literatur[ändere | Quälltäxt bearbeite]

  • Joan Aliprand u.a. (Hrsg.): The Unicode Standard Version 4.0, Addison Wesley, Boston, Mass. 2003, ISBN 0-321-18578-1

Weblink[ändere | Quälltäxt bearbeite]

Standards:

  • RFC 3629 (UTF-8, a transformation format of ISO 10646)
  • RFC 3492 (Punycode, für Sonderzeiche in Domainname)
Dä Artikel basiert uff ere fräie Übersetzig vum Artikel „Unicode“ vu de dütsche Wikipedia.

E Liste vu de Autore un Versione isch do z finde.