Feeds:
Innlegg
Kommentarar

Archive for februar 2011

Unicode for amatørar

I ein tidlegare bloggpost tok eg føre meg det å skrive IPA-teikn (lydskrift) på ein Mac. Under betatestinga av tastaturoppsettet som er nemnt der, var det ein brukar som hadde sett seg ned med Word, hadde valt ein IPA-font, og byrja å skrive, men då kom det berre vanlege norske bokstavar. Vedkomande hadde gløymt å endre til IPA-tastaturoppsett.

Det eg skriv om Unicode her, er meint for eit publikum som ikkje har den aller største teknologiske kompetansen (og det er også skrive av ein som ikkje akkurat er ekspert), men sjølv om det til tider er veldig forenkla og amatørmessig, kan somme kanskje ha nytte av det likevel.

Hylleplassar

Det finst mange skriftteikn i verda, og det er ikkje plass til alle på dette vesle tastaturet.

Fyrst nokre ord om tastaturet. På tastane er det bokstavteikn, talteikn osb. Men tastaturet veit sjølvsagt ikkje kva slags bokstavar som er avbilda på dei ulike tastane. Ein kan samanlikne det med at vi leiter fram ein tusj og endrar G-tasten til Q og U-tasten til Ü. Sjølvsagt vil ikkje datamaskina oppdage dette.

I staden opererer tastaturet med tastenummerering, slik at det som menneska kjenner att som G-tasten, er tast nr. 5, medan U-tasten er tast nr. 32, P-tasten er tast nr. 35 osb. Og for å gjere det enkelt for oss menneska har fabrikantane skrive bokstavteikna på tastane, slik at også vi får eit hint om kva vi steller i stand når vi trykkjer på dei ulike tastane.

Når vi trykkjer på det som vi kjenner som P-tasten fordi vi vil skrive ein liten p, seier tastaturet til maskina: «Hei, eg har ei oppgåve til deg. Nokon har nettopp trykt på min tast nr. 35, kva vil du gjere med den saka?»

Maskina seier: «Tast nr. 35? La meg sjå etter i registeret mitt. Jau, tast nr. 35, og utan caps lock eller andre tastar, berre tast nr. 35? Vent litt, eg skal slå opp i registeret mitt over tastar og bokstavar her. Ja, her står det, ja: Eg skal hente fram bokstaven på hylleplass nr. 112.» (Det tekniske ordet for hylleplass er «kodepunkt».)

Så går maskina bort til bokstavlageret og seier: «No kjem eg og hentar deg, du vesle bokstav på hylleplass nr. 112.» Alt etter kva for ein font som vert bruk, vil denne bokstaven, ein liten p, sjå ut på ulike måtar. Er fonten Times, ser bokstaven ut på ein litt annan måte (p) enn om fonten er Verdana (p) eller Courier (p). Og på andre hylleplassar finn vi andre bokstavar, til dømes ein stor A på hylleplass nr. 65 og ein liten æ på hylleplass nr. 230

Frå få til mange hylleplassar

Før i tida var det slik at kva som helst kunne finnast på hylleplass nr. 112. Det var som regel ein liten p, men nokre fontar hadde andre bokstavar eller teikn der. Eller sagt på ein annan måte: Ein liten p såg ikkje berre ut som ein liten p, han kunne òg sjå ut som ein liten gresk π (pi) og mangt anna, avhengig av font. Det vart gjort på denne måten fordi det berre fanst 256 hylleplassar. Så dersom det altså var ein gresk π ein var på jakt etter, så skifta ein berre font og gjekk til hylleplass nr. 112 då òg, for å få ein p som «såg gresk ut». Gresk π var altså altså heilt på line med å skifte font for å få ein vanleg norsk p til å sjå ut på ulike måtar: p p p π π π.

Det var denne gamle vanen som fekk databrukaren i fyrste avsnitt til å gå seg på veggen.

For i dag er det altså annleis. I dag er det ikkje 256 hylleplassar men over ein million i eit hylleplass-system som heiter Unicode (nærare bestemt 1 114 112 hylleplassar, flesteparten er pr. i dag framleis ledige). Nokre av hylleplassane er reserverte for spesielle saker og ting, men det er likevel mange nok plassar til at kvart einaste skriftteikn i heile verda kan ha sin eigen hylleplass. Til og med mange andre teikn får plass, slik som åttandedelsnote ♪ (hylleplass 9834), smilefjes ☺ (9786) og peikefinger ☞ (9758). Liten p er på hylleplass nr. 112 som før, men gresk liten pi π har fått sin eigen heim på hylleplass nr. 960. Ein liten latinsk p eller ein liten gresk π vil framleis sjå ulike ut i ulike fontar, men no er dei i alle fall eintydig ein p eller π.

Dramatisering: Jenta har her rolla som datamaskin. Det finst over ein million hylleplassar med ulike bokstavar og teikn, men datamaskina har nettopp gått til hylleplass nr. 960 for å hente det teiknet som held til der. Dette viste seg å vere den greske bokstaven π (pi). Saman med sjølve opplysninga om at det er ein π som held til på denne hylleplassen, ligg det også opplysningar om korleis teiknet oppfører seg, t.d. at det høyrer til eit skriftsystem som går frå venstre mot høgre (som også i norsk) og ikkje motsett (som i kinesisk). Så no når maskina har funne ut dette, kan ho gå vidare til skjermen og skrive π, slik at vi kan lese bokstaven der. Akkurat korleis bokstaven vert sjåande ut, er avhengig av kva for ein font som vert brukt, men det er i alle fall eintydig ein π og ikkje t.d. ein norsk Æ eller ein russisk И. (Foto: Joe Crawford.)

Slike teikn som er spesielle for lydskriftsystemet IPA, har òg sine heilt eigne hylleplassar.

Dette medfører òg at dersom vi skriv eit stort dokument på norsk, men med lydskrift og nokre greske eller japanske skriftteikn innimellom, så er det ikkje katastrofe dersom vi markerer all teksten og endrar font. Gresk π er framleis ein gresk π. (Ingen einskildfont inneheld forresten alle hylleplassane pr. i dag, men mange fontar inneheld nokså mykje likevel.)

Tastaturoppsett

Men sjølv om det no finst over ein million hylleplassar å velje mellom (derav hundre tusen til eit par hundre tusen hylleplassar med innhald i, alt etter korleis ein tel), så har tastaturet (i alle fall eit MacBook-tastatur) berre 48 tastar med plass til bokstavar, tal og andre teikn, i tillegg til nokre spesialtastar. Desse 48 tastane har i praksis plass til fleire teikn enn som så, t.d. er dollarteiknet $ på same tast som talet 4, og vi kan bruke daudtastar for å stappe inn nokre ekstra bokstavar (til dømes skrive áćéíńóś ved hjelp av akuttaksent + bokstavtast, alle desse ekstrabokstavane har sine eigne hyllepalssar). Men sjølv dette finst det anten grenser for, eller det vert etter kvart upraktisk dersom ein vil skrive til dømes tjue tusen ulike teikn via tastaturet.

Tastaturmenyen i menylina med nokre utvalde tastaturoppsett.

Her er det vi kan ha nytte av å skifte tastaturoppsett. Eit tastaturoppsett er registeret som datamaskina slår opp i når ho skal bestemme seg for kva for ein hylleplass ho skal gå til når vi trykkjer på den eller den tasten. (Sjå også denne bloggposten.) Som standard på ein norsk Mac er det slik at eit trykk på tast nr. 35 dirigerer oss mot hylleplass nr. 112 og ein liten p. Men så kan ein skifte til gresk tastaturoppsett, og når vi då trykkjer på tast nr. 35, så er det fordi vi vil ha bokstaven på hylleplass nr. 960, som er π.

Sameleis, tast nr. 39 gjev til vanleg hylleplass nr. 230, ein liten æ. Men med svensk tastaturoppsett vil denne tasten vere kopla til hylleplass nr. 228 (ä), eit amerikansk tastaturoppsett vil leite fram hylleplass nr. 39 (apostrof), eit kviterussisk oppsett vil gå til hylleplass 1101 (э), og eit devanagari-oppsett finn fram til hylleplass nr. 2335 (ट).

Sjølve tasten er den same, men tastetrykket sender datamaskina til vidt ulike hylleplassar, alt etter kva for eit tastaturoppsett som er i bruk. Bur ein i Sverige, har ein gjerne kjøpt ei datamaskin der bokstavteiknet Ä er prenta på den aktuelle tasten, men som sagt, datamaskina har ikkje noko forhold til kva som er skrive på den fysiske tasten. Dermed kan vi skifte tastaturoppsett så ofte vi vil, sjølv om det jo er praktisk i det daglege å halde seg til eit tastaturoppset som stemmer overeins med dei bokstavane som er skrivne på tastane. (Eventuelt er det praktisk å ha tastar som ser ut i samsvar med det tastaturoppsettet ein bruker i det daglege.)

Desse bileta viser kva slags teikn som dukkar opp når ein trykkjer på Mac-tastaturet, avhengig av om ein har valt norsk eller kviterussisk tastatur. Æ-tasten er for referansen si skuld markert med grønt på begge bileta:

Norsk tastaturoppsett på ein MacBook.

Kviterussisk tastaturoppsett på ein MacBook.

Fleire vegar til Rom

Tilbake til Mac-brukaren som ville skrive IPA-lydskrift, men som fekk ein vanleg bokstav i staden: Fenomenet kom sjølvsagt av at datamaskina gjekk til norske hylleplassar i staden for til IPA-hylleplassane. Då var det lite hjelp i å ha ein font med lydskriftteikn på IPA-hylleplassane, når datamaskina ikkje gjekk til rett hylleplass. Men med litt oppfrisking av gamle kunnskapar gjekk det bra: Skift tastaturoppsett medan du skriv lydskrift.

Å nå bestemte hylleplassar kan ein altså gjere via tastaturet, dersom ein har eit høveleg tastaturoppsett. For meg som skriv lydskrift mykje, er det t.d. kjekt å gjere det på den måten, slik at når eg trykkjer på stor S på tastaturet, så er det ikkje stor S som vert henta fram (hylleplass nr. 83) men lydskriftteiknet for ustemd postalveolar frikativ (ʃ, hylleplass nr. 643).

Men det finst også andre vegar til hylleplassane. Det er til dømes ikkje spesielt ofte eg treng teikn som ☃ (snømann, hylleplass nr. 9731), og ikkje har eg han i noko tastaturoppsett eg veit om heller. I staden kan ein leite seg fram på ei oversikt over alle hylleplassane. Denne oversikta heiter «Tegnvisning» på Mac og er tilgjengeleg anten via ⌘⌥T eller via tastaturmenyen, som kan aktiverast i kontrollpanelet Språk og tekst > Inndatakilder. Det er forresten her vi går også når vi vil bestemme kva for nokre tastaturoppsett vi vil ha tilgang til frå menylina.

For lydskriftbrukarar som ikkje vil bruke tastaturet, finst det også meir avgrensa hylleplass-oversikter spesifikt for det internasjonale fonetiske alfabetet, slik som dette IPA-kartet frå Weston Ruter. Der kan ein klikke på eit symbol, markere og kopiere det, og lime det inn i tekstbehandlaren sin. Dessutan finst det ein IPA-teiknpallett som ein kan køyre lokalt på maskina (men installeringa av versjon 2.0 på min Mac OS X 10.6.6 var litt trøblete).

Mac-brukaren eg nemnde i det fyrste avsnittet, fekk også problem med å skrive norsk. Plutseleg vart det IPA-teikn i staden, og tekstbehandlaren slo over til ein annan font som inneheldt dette teiknet. Mysteriet fekk si løysing: «Du må skru over til norsk tastaturoppsett igjen når du vil skrive vanleg skriftspråk.»

Kjerreveg

Somme har kanskje ikkje oppdaga Rom eller vegane dit, og då kan det gå rett så gale, noko eg har skrive om tidlegare: Klikk her for nokre skrekkhistorier.

Men her vil eg til slutt nemne dei som har oppdaga Rom, men som også gjerne tek seg avstikkarar ut på kjerrevegane. Eg tenkjer på Microsoft. Sjå til dømes dette utdraget frå ein bloggpost av ein truleg heilt uskuldig bloggar:

Sitatene over er hentet fra en av mine mest engasjerte lesere, Gregersen. Jeg kjenner selvfølgelig ikke denne Gregersen, men som en liten anekdote heter høyrehånda til min kone nettopp Gregersen, men han er allerede sjekket ut av saken J. For ordens skyld er han en hedersmann.

At kva for noko? Gregersen er «allerede sjekket ut av saken J»? Kva for ei sak er sak J? Er det saka før sak K?

Nei då. Eg mistenkjer at forfattaren av praktiske grunnar kladda blogginnlegget sitt i eit Microsoft-produkt som Word eller Outlook eller deromkring. I kladden har han truleg skrive eit smilefjes :-) som programmet så har autoretta til eit smilefjes ☺. Her burde programmet sjølvsagt ha valt nettopp smilefjeset ☺ (hylleplass 9786), men i staden har Microsoft bestemt seg for å autorette til teiknet på hylleplass nr. 74, som er hylleplassen til bokstaven J. Dette vart likevel ikkje synleg før teksten vart limt inn i bloggen, for der overlever både halvfeit og kursiv men ikkje fontane. Og dermed overlevde ikkje ☺.

Så kvifor valde Word å autorette :-) til akkurat bokstaven J? Grunnen er at programmet stør seg til ein Microsoft-font som heiter Wingdings, og som av historiske grunnar ikkje forheld seg til Unicode med sine 1,1 millionar hylleplassar, men som synest det er nok med 256 hylleplassar. I den fonten er ☺ berre ein annan måte å skrive J på. Dette er altså gamlemåten å gjere det på, trass i at desse programma i seg sjølve faktisk taklar Unicode.

Eit Google-søk på «velkommen til oss J» finn meir av same sorten.

Judith har forresten skrive ein eigen bloggpost om fenomenet «Hei J» i e-postar frå Microsoft-brukarar.

Heilt til slutt eit avsnitt for dei som kan litt, og som vil prøve sjølve: Dersom du kopierer eit Wingdings-smilefjes frå Word og limer det inn i Pages ’09 på Mac OS X 10.6.6, så vil Pages tolke ☺ som eit teikn frå eit av «privat bruk»-områda av Unicode, medan TextEdit 1.6 konverterer akkurat dette bestemte Wingdings-teiknet til eit ekte Unicode-smilefjes så sant du limer det inn med ⌥⇧⌘V utan å ta med deg stilen frå Word. Limer du inn i html-redigeringa i WordPress, vert det òg eit ekte smilefjes, men lim inn med vanleg ⌘V i «Visuell»-redigeringa og få ein J. Dei tilfella der Wingdings-smilefjeset vert konvertert til eit ekte Unicode-smilefjes, ser ikkje ut til å konvertere andre Wingdings-teikn enn andlet, så Wingdings-peikefinger ☞ vert i TextEdit forstått som «privat bruk» og ikkje som peikefinger. Det verkar altså som det er lagt inn ei spesifikk konvertering av nettopp fjes: Smilefjes vert konvertert til ☺, surt fjes til ☹, medan nøytralt fjes vert konvertert til dei to teikna :| i mangel av eit eige Unicode-kodepunkt for dette fjeset i Mac OS X 10.6.6, som enno ikkje har teke i bruk Unicode 6.0.

Read Full Post »