De dansande figurerna

De dansande figurerna
Peter Freund januari 2002

I början på 1900-talet skriv Sir Arthur Conan Doyle en berättelse som hette "De dansande figurerna". Den handlade om ett meddelande, skrivet med speciella, dansande tecken och i kodform. Dagens datorers tecken är bara en annorlunda variant av en liknande kodning.
Det har skett en hel del utveckling sedan 1963, då man i USA föreslog en enkel teckenstandard, ASCII (American Standard Code for Information and Interchange) bestående av 128 tecken, från 0 till 127. En av männen bakom, Bob Bemer, som kallas "ASCII-fadern" är exempelvis ansvarig för att vi använder "backslash", eller "omvänt snedtecken". Ända sedan dess har de datorer känt till att tecknet "0" ska memoreras som talet 48, A som 65, etc.
De första 32 ASCII-koderna reserverades för speciella datorändamål, som exempelvis pipsignal (7), tabulatortecknet (9) eller vagnretur (13). Flera av de första 32 koderna används fortfarande vid datorkommunikation.
När IBM PC, den första mikrodatorn från IBM introducerades i början på 80-talet, så utökade man ASCII teckenuppsättningen till att omfatta hela 256 tecken. Man lade exempelvis till tecknen för engelska pund, japanska yen och dessutom de flesta västeuropeiska tecken, inklusive våra svenska tecken. Men eftersom 256 var många tecken, så man avsatte nästan 50 av platserna för datorgrafik - så man plötsligt kunde skriva enkla spel och rita!
Denna teckenuppsättning förändrades i samband med Microsoft Windows. Då förändrades nästan samtliga tecken mellan 128 och 255 till att motsvara andra positioner. Under denna tid hade dessutom de flesta östeuropeiska länderna börjat använda datorer och gjorde iordning egna anpassningar av de övre 127 tecknen, så att det skulle passa hemlandet.
Man kan än idag enkelt se förvirringen som uppstod, genom att i ett Windows-program skriva end text med tecknen "ÅÄÖåäö" och spara den som en text-fil (t ex "A.TXT") Om man därefter övergår till ett DOS-fönster och i detta skriver "TYPE A.TXT" så skrivs innehållet i filen ut på skärmen, men tolkat enligt IBM PC teckenuppsättning, alltså som felaktiga tecken - bl a med tecknen: "+" (isf Å), "-" (isf Ä), " ÷" (isf ö) etc.
Datorteckenuppsättningarna började bli som ett babels torn, alla hade sin lösning. Det är faktiskt så internet idag ser ut. I koden på websidor, står texten:
<meta http-equiv="content-type" content="text/html; charset=iso-8859-1" />
( www.ericsson.se)
<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">
(www.ericsson.ru (Ryssland))
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
(www.ericsson.co.jp (Japan))
<meta http-equiv="Content-Type" content="text/html; charset=ks_c_5601-1987">
(www.ericsson.com/kr/ (Korea))
Som synes använder alla sidorna en hänvisning till vilken teckenuppsättning som används på sidan. Därefter är det upp till webbläsaren att se till att alla tecken visas på rätt sätt. Det finns ett 10-tal uppsättningar som förekommer och kring ett tjugotal finns definierade. Skillnaderna är ibland små, som mellan ISO-8859-1 och ISO-8859-15, där den senare har ett fåtal sällan använda tecken avlägsnade, samt det nya Euro-tecknet infört.
Det finns många olika problem med att ha speciella teckenuppsättningar för olika språk. Det är vanligt att man surfar till en främmande websida och kan inte läsa innehållet korrekt. Det är svårt att skapa texter som innehåller flera pråk, på samma webbsida.

Lösningen på är att förena alla världens tecken under en enda riktigt stor och komplett teckenuppsättning. Denna har fått namnet UniCode. Redan 1991 gick ett flertal oliktänkande företag samman för att lösa just detta med teckenuppsättningar. På www.unicode.com kan man läsa mer om Unicode. Medlemmar i Unicodekonsorciet omfattar de flesta av världens betydelsefulla dataföretag, samt ett antal allierade länder - Kina, Tamil, Iran, Korea och Vietnam.
UniCode används i Windows 2000, Macintosh OS X, Microsoft Office, Adobe InDesign. Men UniCode är en standard för att numrera alla världens tecken.
Unicode, eller standarded ISO 10646 defines the Universal Character Set (UCS). Detta innebär en numrering och textbeskrivning av alla världens språk och tecken. Även hieroglypher, och Tolkiens speciella teckenstilar Tengwar and Cirth är föreslagna att ingå i Unicode.
Men när det sedan är en fråga om att få Unicode att fungera i praktiken finns ett flertal problem. Främst är programmerar ovilliga att använda Unicode, om dokument med Unicode blir onödigt stora, beroende på att varje tecken ska uppta två byte istället för en. Därför existerar idag olika sätt att lagra Unicode.
Den vanligaste lagringsmetoden är UCS-2 och innebär att man lagrar 2 byte per tecken. Den har funnits tillgängligt för programmerare av Windows-program redan i början av 90-talet, men få har utnyttjat möjligheten. Anledningen är att svenska eller engelska dokument kodade med UCS-2 blir avsevärt större än motsvarande okodade textfiler.
UTF-8 är en mer platsbesparande variant, UTF-8 (UCS Transformation Format). Denna kodningsmetod innebär att man anpassar kodutrymmet till innehållet. Man kan begränsa sig till 128 tecken (motsvarande gammaldags ASCII). Om man ska använda europeiska språk, som romanska eller kyrilliska alfabetet, så kan man utnyttja 1920 tecken. Genom att utnyttja 3 byte, eller 63488 tecken så kan man även omfatta Kinesiska och Japanska. De övriga 2147418112 tecknen är inte tilldelade ännu och kan utnyttja 4, 5 eller 6 byte. Tekniken innebär att man kan uppnå lika effektiva dokument kodade med Unicode som utan.
Unicode som projekt startades för ungefär 10 år sedan, men de dokument som behandlar Unicode och XML, Unicode och Linux och andra implementationer som verkligen betyder något är faktiskt nästan alla årsgamla.
Troligen kommer Unicode att betyda något för vanliga människors vardag - om några år, när webbsidor byggs med Unicode redan från början. Men redan idag är det Unicode som möjliggör att man i många ordbehandlingsprogram kan blanda romanska, kyrilliska, hebreiska och arabiska i samma dokument och samma teckensnitt.

Tänk om världens folk kunde leva lika fredligt med varandra som tecken i våra datorer.