I början på 1900-talet skriv Sir Arthur Conan Doyle en berättelse
som hette "De dansande figurerna". Den handlade om ett meddelande,
skrivet med speciella, dansande tecken och i kodform. Dagens datorers tecken
är bara en annorlunda variant av en liknande kodning.
Det har skett en hel del utveckling sedan 1963, då man i USA föreslog
en enkel teckenstandard, ASCII (American Standard Code for Information and Interchange)
bestående av 128 tecken, från 0 till 127. En av männen bakom,
Bob Bemer, som kallas "ASCII-fadern" är exempelvis ansvarig för
att vi använder "backslash", eller "omvänt snedtecken".
Ända sedan dess har de datorer känt till att tecknet "0"
ska memoreras som talet 48, A som 65, etc.
De första 32 ASCII-koderna reserverades för speciella datorändamål,
som exempelvis pipsignal (7), tabulatortecknet (9) eller vagnretur (13). Flera
av de första 32 koderna används fortfarande vid datorkommunikation.
När IBM PC, den första mikrodatorn från IBM introducerades i
början på 80-talet, så utökade man ASCII teckenuppsättningen
till att omfatta hela 256 tecken. Man lade exempelvis till tecknen för
engelska pund, japanska yen och dessutom de flesta västeuropeiska tecken,
inklusive våra svenska tecken. Men eftersom 256 var många tecken,
så man avsatte nästan 50 av platserna för datorgrafik - så
man plötsligt kunde skriva enkla spel och rita!
Denna teckenuppsättning förändrades i samband med Microsoft Windows.
Då förändrades nästan samtliga tecken mellan 128 och 255
till att motsvara andra positioner. Under denna tid hade dessutom de flesta
östeuropeiska länderna börjat använda datorer och gjorde
iordning egna anpassningar av de övre 127 tecknen, så att det skulle
passa hemlandet.
Man kan än idag enkelt se förvirringen som uppstod, genom att i ett
Windows-program skriva end text med tecknen "ÅÄÖåäö"
och spara den som en text-fil (t ex "A.TXT") Om man därefter
övergår till ett DOS-fönster och i detta skriver "TYPE
A.TXT" så skrivs innehållet i filen ut på skärmen,
men tolkat enligt IBM PC teckenuppsättning, alltså som felaktiga
tecken - bl a med tecknen: "+" (isf Å), "-" (isf Ä),
" ÷" (isf ö) etc.
Datorteckenuppsättningarna började bli som ett babels torn, alla hade
sin lösning. Det är faktiskt så internet idag ser ut. I koden
på websidor, står texten:
<meta http-equiv="content-type" content="text/html; charset=iso-8859-1"
/>
( www.ericsson.se)
<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">
(www.ericsson.ru (Ryssland))
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
(www.ericsson.co.jp (Japan))
<meta http-equiv="Content-Type" content="text/html; charset=ks_c_5601-1987">
(www.ericsson.com/kr/ (Korea))
Som synes använder alla sidorna en hänvisning till vilken teckenuppsättning
som används på sidan. Därefter är det upp till webbläsaren
att se till att alla tecken visas på rätt sätt. Det finns ett
10-tal uppsättningar som förekommer och kring ett tjugotal finns definierade.
Skillnaderna är ibland små, som mellan ISO-8859-1 och ISO-8859-15,
där den senare har ett fåtal sällan använda tecken avlägsnade,
samt det nya Euro-tecknet infört.
Det finns många olika problem med att ha speciella teckenuppsättningar
för olika språk. Det är vanligt att man surfar till en främmande
websida och kan inte läsa innehållet korrekt. Det är svårt
att skapa texter som innehåller flera pråk, på samma webbsida.
Lösningen på är att förena alla världens tecken under
en enda riktigt stor och komplett teckenuppsättning. Denna har fått
namnet UniCode. Redan 1991 gick ett flertal oliktänkande företag samman
för att lösa just detta med teckenuppsättningar. På www.unicode.com
kan man läsa mer om Unicode. Medlemmar i Unicodekonsorciet omfattar de
flesta av världens betydelsefulla dataföretag, samt ett antal allierade
länder - Kina, Tamil, Iran, Korea och Vietnam.
UniCode används i Windows 2000, Macintosh OS X, Microsoft Office, Adobe
InDesign. Men UniCode är en standard för att numrera alla världens
tecken.
Unicode, eller standarded ISO 10646 defines the Universal Character Set (UCS).
Detta innebär en numrering och textbeskrivning av alla världens språk
och tecken. Även hieroglypher, och Tolkiens speciella teckenstilar Tengwar
and Cirth är föreslagna att ingå i Unicode.
Men när det sedan är en fråga om att få Unicode att fungera
i praktiken finns ett flertal problem. Främst är programmerar ovilliga
att använda Unicode, om dokument med Unicode blir onödigt stora, beroende
på att varje tecken ska uppta två byte istället för en.
Därför existerar idag olika sätt att lagra Unicode.
Den vanligaste lagringsmetoden är UCS-2 och innebär att man lagrar
2 byte per tecken. Den har funnits tillgängligt för programmerare
av Windows-program redan i början av 90-talet, men få har utnyttjat
möjligheten. Anledningen är att svenska eller engelska dokument kodade
med UCS-2 blir avsevärt större än motsvarande okodade textfiler.
UTF-8 är en mer platsbesparande variant, UTF-8 (UCS Transformation Format).
Denna kodningsmetod innebär att man anpassar kodutrymmet till innehållet.
Man kan begränsa sig till 128 tecken (motsvarande gammaldags ASCII). Om
man ska använda europeiska språk, som romanska eller kyrilliska alfabetet,
så kan man utnyttja 1920 tecken. Genom att utnyttja 3 byte, eller 63488
tecken så kan man även omfatta Kinesiska och Japanska. De övriga
2147418112 tecknen är inte tilldelade ännu och kan utnyttja 4, 5 eller
6 byte. Tekniken innebär att man kan uppnå lika effektiva dokument
kodade med Unicode som utan.
Unicode som projekt startades för ungefär 10 år sedan, men de
dokument som behandlar Unicode och XML, Unicode och Linux och andra implementationer
som verkligen betyder något är faktiskt nästan alla årsgamla.
Troligen kommer Unicode att betyda något för vanliga människors
vardag - om några år, när webbsidor byggs med Unicode redan
från början. Men redan idag är det Unicode som möjliggör
att man i många ordbehandlingsprogram kan blanda romanska, kyrilliska,
hebreiska och arabiska i samma dokument och samma teckensnitt.
Tänk om världens folk kunde leva lika fredligt med varandra som tecken i våra datorer.