Encodage

Qu'est-ce qu'un encodage ?

Tous les caractères, nombres et caractères spéciaux que nous pouvons voir sur un écran ou imprimés doivent être en valeurs numériques pour la transmission électronique dans un “encodage”.

Initialement, seuls des petits encodages furent développés qui comprenaient un nombre limité de caractères, p.ex. ANSI, ASCII. DOS-, Windows-, Linux- et Macintosh-Computer n'utilisaient pas des encodages identiques. Mais ils diffèrent principalement des caractères spécifiques au langage comme les trémas.

Qu'est-ce qui est requis par le standard GEDCOM ?

Les données généalogiques peuvent contenir des caractères de n'importe quel langage. GEDCOM 5.5 permet seulement ANSEL (de toute manière peu communn), ASCII et UNICODE; GEDCOM 5.5.1 ajoute UTF-8.
L'encodage IBMPC n'est pas permis explicitement car il ne peut pas être interprété correctement sans connaître quelle page de codes l'utilisateur utilise.

De toute manière, beaucoup de programmes de généalogie ne gèrent que les encodages pour Windows et Mac.

Dans le but de savoir comment les bytes de données doivent être interprétées, GEDCOM exige le 1 CHAR <CHARACTER_SET> dans l'en-tête du fichier.

Que devons-nous utiliser ?

Unicode est un standard de l'industrie informatique pour un encodage, une gestion et une représentation conformes du texte, dans la plupart des systèmes d'écriture dans le monde. C'est ainsi que nous devons normalement enregistrer nos fichiers.

En enregistrant un fichier pour un autre programme généalogique, nous devons être sûr de choisir un encodage qui soit compris par le programme du receveur.
Aussi Genj peut enrgistrer en : ANSEL, ANSI, ASCII, LATIN1, UTF-8, UNICODE. Ce choix se sélectionne dans le dialogue 'Enregistrer sous …' sous 'Encodage'.

Quand GenJ ouvre un fichier

En ouvrant un fichier GEDCOM, GenJ essaie d'interpréter les fichiers qui ne sont pas conformes au standard GEDCOM. Quand il rencontre un encodage IBMPC, il suppose qu'il s'agit de ISO-8859-1 (Latin1).

Quand un fichier affiche incorrectement des caractères, vous pouvez essayer de modifier la valeur du tag CHAR dans l'en-tête de fichier avec un éditeur normal et le lire ensuite dans GenJ.

Quand GenJ enregistre un fichier

GenJ enregistre en fait un fichier comme UTF-16 et l'indique, si cela est exigé, dans le BOM (Byte Order Mark). Le BOM indique la séquence de byte d'un fichier encodé en UTF-8, UTF-16 ou UTF-32 coded file. N'importe quelle application qui gère l'encodage unicode doit être capable de le lire.

Tout ceci est géré dans le dialogue 'enregistrer sous …' (voir Enregistrer, fermer et sauvegarder le fichier). Mais le BOM doit être coché seulement si le receveur comprend et a besoin de cette propriété.

Accéder à chemins d'étiquettes

fr/manual/character_sets.txt · Last modified: 2011/01/10 07:31 by ddurand
Get GenealogyJ at SourceForge.net. Fast, secure and Free Open Source software downloads Recent changes RSS feed Creative Commons License Driven by DokuWiki