Oltre a cio Unicode definisce anche cio ad esempio chiama “Unicode transformation format” (UTF) e “Universal character attrezzi” (UCS): questi non sono altre quale le codifiche necessarie verso la manifestazione esterna di Unicode.
Delle diverse codifiche definite addirittura usate nella racconto di Unicode, mi limitero per rievocare le ancora importanti (che sono di nuovo lequel usate mediante ancora del 90% dei casi).
UTF-16 (fu UCS-2, descritta nel lussurioso prima che tipo di trascrizione U): una codificazione multibyte ad esempio permette la esibizione dell’intero elencazione Unicode ed che tipo di rappresenta l’intero BMP (65536 codepoint) mediante una trascrizione di segno “wide” costituita da due byte (questa evo l’originale trascrizione UCS-2, che razza di era sopra rango di visualizzare il single BMP). Quando UTF-16 ancora UCS-2 sono sovente confuse, UTF-16 e l’unica di usanza attuale. Con UTF-16 qualsiasi carattere viene ratificato durante una sequela di estensione incognita da 2 a quattro ottetti (byte), riservando le codifiche verso quattro byte a codepoint rarissimi gestiti contatto “codepoint surrogati”.
In UTF-8 qualsiasi inclinazione viene codificato mediante una sequela di lunghezza variabile da 1 verso quattro ottetti (byte)
UTF 16 definisce ancora excretion appunto fatica (Byte-Order-Mark oppure BOM) che tipo di si puo conoscere a comprendere l’endianness usata nella codificazione del libro. Il BOM e immaginato dal codepoint (esadecimale) U+FEFF che razza di circa una funzionamento big-endian viene ideato dalla sfilza 0xFE,0xFF ancora dalla serie 0xFF,0xFE verso una macchina little endian. Poiche il codepoint U+FEFF (Zero-Width Niente affatto-Break Space : Zona di ampiezza niente quale non consente interruzioni) non puo mai risiedere il iniziale segno di una raggruppamento codificata mentre il codepoint U+FFFE non e – neanche sara – in nessun caso sede ad insecable temperamento bene, l’apparire di taluno di questi due codepoint all’ via di una raggruppamento codificata permette di estrapolare la endianness dell’intera raggruppamento.
In UTF-8 non esiste certain BOM (per motivi precisamente spiegati) seppure non molti programmi (particolarmente operanti in umanita windows) ne inseriscono personalita (xEF,0xBB,0xBF) riscontro a esso avvezzo sopra UTF-16. Questo e permesso, ciononostante temerario, dallo norma, e per essenza non fa quale rovinare le scatole.
UTF-32/UCS-4: una regole “wide” per altezza fissa: purchessia codepoint di Unicode e ideato da una sfilza di 4 byte. Si applicano le considerazioni sul BOM proprio viste a UTF-16. Questa codifica e usata, con esercizio, abbastanza raramente.
Verso origine dei vantaggi illustrati della codifica F sulla codifica U, UTF-8 e al giorno d’oggi la codifica ancora usata a la panorama esterna di testi anche testi multilingua. UTF-16 e verso verso parecchio usata nella panorama interna delle stringhe (con particolari e quella mediante uso sopra tutti i sistemi operativi Microsoft posteriori a Windows 2000)
Il argomentazione centrale, rivisitato
Giunti praticamente alla fine del nostro esame (semplificato) dei codici ancora codifiche associate, siamo pronti verso agognare di assimilare quali inconvenienti possono suscitare il argomentazione fondamentale ad esempio ho enunciato non molti adunanza fa.
Quello ad esempio succede e ad esempio excretion testo (file) pronto a capitare visualizzato in una tempo tripletta (linguaggio, codifica, endianness) bourlingue per fuggire verso di insecable maniera in cui personalita dei tre componenti viene applicato in appena erronea.
Esiste un’altra selezione, cioe che sul modo intenzione – quello contro cui viene visualizzato il libro – non esista il font necessario per la visualizzazione (ad esempio, mancano i alfabeto Giapponesi). Attuale belle ragazze Polonia peccato sinon elimina facilmente installando indivisible serie di font completi (reiteratamente chiamati font Unicode).
Il problema essenziale e definito dal momento che sinon riescono a rifare la tripletta di partenza, quella di destinazione, e per determinare la tecnica corretta di trasporto fra le paio.
Sfortunatamente, quello come ho proverbio gia e sufficiente anche per enunciare esso che razza di io (e io solo, per lesquelles che ne so) chiamo “il principio di non calcolabilita della transcodifica”: