ASCII

1 / 27
volgende
Slide 1: Tekstslide
InformaticaMiddelbare schoolhavoLeerjaar 4

In deze les zitten 27 slides, met interactieve quizzen en tekstslides.

time-iconLesduur is: 60 min

Onderdelen in deze les

Slide 1 - Tekstslide

Tekst
  • Lettertekens (abcde... ABCDE...)
  • Cijfertekens (0123....)
  • Leestekens (';",....)
  • "diakritische-tekens" (é, ö etc)
  • allerlei andere tekens (£, °, &, ±, µ, †)

Slide 2 - Tekstslide

Digitaliseren van tekst

Elk teken heeft een binaire code.
Alle tekens geven we een nummer en de binaire versie van dit nummer is de representatie van het teken.

Slide 3 - Tekstslide

ASCII
De nummering van de meest voorkomende tekens is gestandaardiseerd in de ASCII-tabel. ASCII staat voor American Standard Code for Information Interchange. De ASCII-tabel is een voorbeeld van een afspraak, die door iedereen als standaard gebruikt wordt.
In de ASCII-tabel wordt een letterteken voorgesteld door één byte. Daardoor is er ruimte voor 255 tekens. De numerieke waarde van A is 65, binair 01000001, de numeriek waarde van a is 97, binair 01100001.

Slide 4 - Tekstslide

Structuur van ASCII
De eerste 32 tekens in deze tabel zeggen je waarschijnlijk niet zo veel. Dit zijn allerlei stuurtekens. Bekende tekens zijn de line feed (LF, 10), de TAB (11) en de carriage return (CR, 13). De overige codes staan voor zichtbare tekens.
Je ziet ook dat ook de cijfers 0 tot en met 9 in de ASCII-tabel voorkomen. Dat zijn hier geen getallen, maar alleen tekens. Net als letters, moet je ook de cijfertekens kunnen printen!

Slide 5 - Tekstslide

Wat is de numerieke waarde van het vraagteken?
A
11
B
63
C
33
D
77

Slide 6 - Quizvraag

Wat is de binaire code van het vraagteken?
A
00111111
B
0100001
C
1000011
D
1111111

Slide 7 - Quizvraag

De ASCII-codes van de tekens voor de kleine letters a t/m z verschillen van de hoofdletters a t/m z.
Hoe groot is het verschil?

Slide 8 - Woordweb

Slide 9 - Tekstslide

Welk woord staat hier naast?
(de letters staan onder elkaar)

Slide 10 - Open vraag

De lettertekens van 128 tot en met 255
In de ASCII-tabel zijn 128 tekens (0 tot en met 127) vastgelegd, maar in één byte kun je door tot 255. Die zijn op verschillende manieren ingevuld, er zijn een aantal standaarden
Het gaat dan om speciale tekens, zoals letters met accenten of trema's (é, ë, è, ñ, ç) en tekens als ©, æ, ø, §, ½ en £.


Slide 11 - Tekstslide

ISO 8859-1
Een bekende standaard is ISO 8859-1, ook wel Western ISO Latin 1, kortweg Latin 1 genoemd. Deze lijst bevat de speciale letters met accenten van het Latijnse schrift, ons alfabet. 

Deze standaard is later weer aangepast, onder andere om ruimte te maken voor het euroteken, €, dat is opgenomen in ISO 8859-15.

Slide 12 - Tekstslide

Verschillende standaarden in iso 8859
De ISO-standaard 8859 heeft ook lettertekens voor andere talen, zoals Russisch, Arabisch en Grieks. Deze hebben dan een ander getal achter het nummer van de standaard.
Zo is ISO 8859-7 de standaard voor Grieks.

Browsers kunnen al die tekensets weergeven.

In HTML4 kun je aangeven welke tekenset gebruikt wordt.

Dat gaat met een regel in de header van een html-bestand:
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-7">

Slide 13 - Tekstslide

Ga naar het team en maak de opdracht:

ISO 8859 uitproberen

Slide 14 - Tekstslide

Lettertekens op het scherm
De ASCII-code wordt door de computer gebruikt voor de representatie van teksten in het geheugen of in een bestand. Op het scherm of de printer wordt de code vertaald in een 'plaatje' van de bijbehorende letter. Hiervoor kunnen verschillende lettertypen - in het Engels: font of typeface - gebruikt worden.
Een lettertype of font is een beschrijving van het uiterlijk van schrifttekens. Voor elke ASCII-code beschikt een lettertype over een bijbehorend plaatje.

Slide 15 - Tekstslide

Het ontwerpen van lettertypes is een vak op zich, het is niet zo makkelijk om een serie letters te maken die mooi is en waar de letters duidelijk van dezelfde stijl zijn. Deze periode gaan we hier niet verder op in.

Slide 16 - Tekstslide

Unicode
Een nog uitgebreidere internationale standaard voor het coderen van de meeste grafische tekens en symbolen. De eerste versie (1991) was een 16-bits code (2 bytes), waarmee 65.536 (216) verschillende tekens konden worden gecodeerd.
Wanneer we alle talen op de wereld samen nemen, hebben we aan 255 verschillende tekens lang niet genoeg. Daarom wordt er een nieuwe standaard voor (schrift)tekens ontwikkeld: Unicode.
Het was de bedoeling dat ieder teken in Unicode zestien bits zou omvatten. Daardoor zouden er meer dan 65000 tekens in passen. Inmiddels is Unicode daar ruim overheen, er zijn nu al meer dan 120.000 tekens. In 2009 is vastgelegd dat er maximaal 21 bits gebruikt worden voor de Unicode.

Slide 17 - Tekstslide

Alle verschillende soorten schrift die op de wereld gebruikt worden in Unicode opgenomen. Daarbij horen ook de duizenden karakters van het Chinese schrift, maar ook alle andere talen die een speciaal alfabet hebben, zoals het Thai en Braille.
Een klein deel van de Chinese karakters staat hiernaast. De unicode staat in hexadecimale notatie: met vier hexadecimale cijfers.

Verder zitten er allerlei bijzondere tekens in Unicode, die geen letters zijn. Voorbeelden zijn ♀, ♠, ✂ en ∞. En zitten ook de emoticons en emoji in Unicode!

Slide 18 - Tekstslide

a.    Welke tekens horen bij de hexadecimale unicodes 3A9, 2122 en 1f600?
b.    Wanneer we in het Nederlands van een zin een vraag willen maken, zetten we er een vraagteken achter. In het Spaans doen ze meer. Ze zetten niet alleen een vraagteken achter de zin, maar ook ervoor en dit vraagteken staat op de kop.
Zoek dit omgekeerde vraagteken op in Unicode. Het Spaans doet hetzelfde met het uitroepteken, zoek ook dit op.
c.    Ook het Thaise schrift is opgenomen in Unicode. Wat is de unicode van de beginletter van de naam van de krant?

Slide 19 - Tekstslide

d.    De standaard wordt voortdurend aangepast, als er nieuwe tekens nodig zijn. In 1998 is het symbool voor de Euro toegevoegd. Wat is de unicode van het Euro-symbool?
e.    In Europa worden naast het Latijnse schrift ook andere soorten schrift gebruikt, zoals het Grieks en Cyrillisch (voor onder andere het Russisch).
Welke getalreeksen worden voor deze schrifttekens gebruikt?
f.    Veel talen gebruiken latijnse letters - het normale alfabet, maar hebben allerlei extra accenten en dergelijke. Deze tekens vind je in de uitbreidingen op de latijnse tekens. Geef de unicode van dergelijke tekens in tenminste drie talen.

Slide 20 - Tekstslide

Teksten in UTF-8
Dat er nu meer dan 100.000 karakters gecodeerd zijn is mooi, maar het geeft ook een probleem. Met de oude ASCII-karakters had je voor iedere letter maar één byte nodig. Voor de 21 bits van Unicode heb je - als je gewoon nummert - drie bytes nodig. Dat zou betekenen dat allerlei documenten, die alleen maar simpele ASCII-tekens bevatten, opeens die keer zo lang worden.
Ok, computergeheugen wordt steeds goedkoper en het internet wordt steeds sneller, maar dit is toch te gortig.
Daarom worden Unicode-teksten gecodeerd in UTF-8. UTF-8 gebruikt een truc om de meeste teksten toch klein te houden. Het gaat te ver om die truc precies uit te leggen (dit is een verdiepende opdracht), maar de basis is dat niet alle letters evenveel bytes zijn.

Slide 21 - Tekstslide

Bijvoorbeeld:
•    Als de rij bits van een karakter begint met een 0, dan is het teken maar één byte lang: de ASCII-karakters.
•    Als de rij bits van een karakter begint met een 1, dan is het teken 2, 3 of 4 bytes lang: alle bijzondere tekens.

Slide 22 - Tekstslide

UTF-8 in webpagina's
De zogenaamde "diakritische-tekens" (é, ö etc) werken niet goed op een website als je niet in de HTML-code aangeeft dat je de juiste uniciode tabel moet gebruiken.
De code : <meta charset="utf-8">.
UTF-8 is de standaard voor HTML. Je kunt dit aangeven door in de header van een html-bestand de onderstaande regel op te nemen.
<meta charset="UTF-8">
Er zijn drie manieren om speciale karakters in te voegen. Steeds zet je de de code van het karakter tussen & en ;.
Om te beginnen hebben veelgebruikte karakters een naam, zoals het teken van de euro. Deze worden HTML-entity's genoemd.
&euro;
Met een # geef je aan dat je het karakter met zijn getalwaarde wilt aanduiden. Ook dit is de euro.
&#8364;
Met #x geef je aan dat het getal in hexadecimale notatie is (weer de euro).
&#x20AC;
.

Slide 23 - Tekstslide

Met de meest uitgebreide 32-bits (4 bytes) codering kunnen ook de Japanse en Chinese tekens en het Hebreeuwse, Cyrillische en Arabische alfabet worden vastgelegd.
Unicode is nodig om een in de HTML code van een website aan te geven welke tabel er gebruikt wordt. ZO kun je een website geschikt maken voor meerdere talen met bijbehorende tekens

Slide 24 - Tekstslide


Na deze les, 
wil ik...
de uitleg nog 1 keer horen
meer voorbeelden krijgen
meer oefeningen maken
de leerstof thuis nog even bekijken
overgaan naar nieuwe leerstof
nog meer te weten komen over de leerstof
niet meer te weten komen over de leerstof

Slide 25 - Poll


Nog iets anders, namelijk...

Slide 26 - Open vraag

Huiswerk
Maak de opdracht in Teams:
  ISO 8859 uitproberen

Slide 27 - Tekstslide