~antoinentl/t

t/content/p/04/04-01.md -rw-r--r-- 36.2 KiB
e146a504antoinentl edit: versionnement des fichiers PDF a month ago
                                                                                
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
---
title: "Les formats dans l'édition : pour une sémantique omniprésente"
chapitre: 4
section: 1
bibfile: "data/04.json"
_build:
  list: always
  publishResources: true
  render: never
---

Un format est la condition de circulation d'une information, et plus précisément une série d'instructions déterminées pour qu'une action soit réalisée par un agent.
Pourquoi donc s'intéresser aux formats ?
Littérature, textes, livres imprimés, fichiers de travail, dimensions des cartons de livres à expédier, livre numérique, conférences de presse, quantité de papier pour l'imprimeur, dans l'édition tout est question de _format_, la polysémie de ce terme est décidément partout.
Formats de fichiers informatiques, mais aussi formats littéraires ou formats de papier, ils peuplent les pratiques d'édition, voire les régissent.
Nous l'avons vu en creux dans le chapitre précédent{{< renvoi chapitre="3" section="5" >}}, les formats sont une expression de la modélisation des textes.

Ce terme polysémique nécessite un panorama de ce qu'il est entendu par _format_, avant de définir spécifiquement comment nous qualifions cette notion dans notre étude des processus d'édition (numérique).
Parmi toutes les définitions possibles du terme, plusieurs questions sous-jacentes reviennent régulièrement, dont le fait de contrôler, de maîtriser ou de conditionner des pratiques ou des comportements.
Les enjeux relatifs aux formes des artefacts ou aux études des médias sont exposés et analysés par la suite.
Notre définition exploratoire ne peut exhaustive, tant l'étude des formats devient un champ en soit — le volume _Format Matters Standards, Practices, and Politics in Media Cultures_ publié en 2019 et rassemblant douze contributions le prouve {{< cite "jancovic_format_2019" >}}.
Nous nous concentrons plus particulièrement sur les formats informatiques et sur la question de la compatibilité entre différents outils utilisés dans les pratiques d'édition.
Enfin, au-delà de cette problématique de communication entre logiciels et données, il s'agit d'exprimer au mieux les textes autant pour les humains que pour les machines.
Une dimension sémantique est nécessaire à toute pratique d'édition, mais encore faut-il déterminer comment elle se structure et comment elle s'exprime.
Si, dans l'édition, tout est format, nous établissons ici que tout est également sémantique.


### 4.1.1. Le format : entre formes littéraires, supports matériels et instructions numériques

G. Thomas Tanselle donne quelques exemples de la pluralité des usages linguistiques du terme _format_, autant dans le monde en général que pour celles et ceux qui étudient les livres, les bibliographes {{< cite "tanselle_concept_2000" "68" >}}.
Notons en préambule que _format_ vient du latin _formatus_, ce qui signifie _formé_.
Le _Dictionnaire de la langue française_ d'Étienne Littré mentionne même une origine latine tournée vers le livre, _liber formatus_, "livre de telle ou telle forme" {{< cite "littre_dictionnaire_1873" "1731" >}}.
Le terme est ainsi largement utilisé pour sa dimension technique depuis les débuts de l'imprimerie, pour qualifier les dimensions du papier ou des livres.

Format et édition ont donc beaucoup de points communs, ou tout du moins format et _média_.
Du format littéraire au format informatique, nous explicitons brièvement quelques-unes des acceptions de ce terme en lien avec l'édition et la littérature.
Enfin, nous conservons pour le moment un flou entre format de travail ou format d'entrée — _input_ en anglais —, et format de sortie ou résultat — _output_ en anglais —, parce qu'un grand nombre de caractéristiques sont partagées.

Si le terme _format_ est un terme technique, il ne s'agit pas que d'informatique, la technique _littéraire_ est également concernée.
Que ce soit des structures définies, des jeux linguistiques ou le soin apporté aux formulations, lorsque nous parlons de _formats_ en littérature nous évoquons la forme des textes.
Cette dimension de format peut dériver vers les _genres_ littéraires, dont la classification et le nombre varient selon les époques et les contextes{{< n >}}Le même exercice pourrait être effectué pour la musique, où les formats et les genres se croisent aussi.{{< /n >}}.
Poésie, polar, essai, roman ou pamphlet sont des genres mais peuvent aussi être considérés comme des formats dont la structure dépend des contenus.
Formes des phrases, découpage en chapitres, longueur totale du texte, matériel critique, autant d'éléments qui modifient aussi la dimension ou l'aspect visuel de l'artefact imprimé — ou numérique.
Les formats littéraires — au sens large — coincident parfois ou souvent avec les formats des artefacts, l'objectif étant qu'ils puissent être identifiés facilement par leur forme et leurs dimensions, et de lever ainsi toute ambiguïté sur le contenu d'un objet imprimé.
Un livre de poésie peut donc se démarquer d'un pamphlet uniquement par son format, et notamment par la taille ou par la qualité du papier, comme l'explique Meredith L. McGill :

{{< citation ref="mcgill_format_2018" page="675-676" lang="en" >}}
No twenty-first-century reader would have trouble distinguishing a book of poetry from a textbook or a dictionary from a distance of twenty feet.
{{< /citation >}}

Un format est une suite d'instructions, et dans le cas d'un support physique comme le livre imprimé cela se traduit principalement par le _format_ de papier.
C'est ce que nous avons évoqué plus tôt, l'usage du terme dans un contexte technique débute dès l'émergence de l'imprimerie jusqu'au dix-neuvième siècle où l'usage des presses à imprimer est encore en vigueur.
Il s'agit de déterminer quelle est la dimension d'une page d'un livre, celle-ci résultant du pliage puis du découpage d'une plus grande feuille de papier {{< cite "genette_seuils_2002" "22-23" >}}.
Les formats de papier dépendent alors du nombre de pliages : _in-folio_ pour un seul pliage, soit un feuillet ou quatre pages ; _in-quarto_ pour deux pliages, soit deux feuillets ou huit pages ; _in-octavo_ pour trois pliages, soit quatre feuillets ou seize pages ; etc.
C'est ainsi que les bibliographes définissent la notion de _format_, ce qui pose problème lorsque la zone d'impression ne coincide plus avec la dimension de la page, ou lors de l'apparition du rouleau de papier qui ne nécessite plus de pliage, ou encore lorsque les dimensions de la feuille avant pliage ne sont pas précisées.

{{< citation ref="tanselle_concept_2000" page="70" lang="en" >}}
The obvious trouble with linking these two examples of "format" ["quarto" and "octavo"] to the basic definition is that a knowledge of paper-folding tells one nothing specific about shape and size unless one knows the shape and size of the paper to start with.
{{< /citation >}}

Quoi qu'il en soit ces choix de formats ont plusieurs origines ainsi que de multiples implications.
Aux dix-septième et dix-huitième siècles, l'enjeu est d'abord financier, en effet plus une feuille est pliée et moins le budget papier est important.
Les dimensions de l'objet imprimé obtenu dépendent en effet du nombre de pliages, et a priori le prix de vente diminue à mesure que le nombre de pliages augmente.
Le choix d'un _format_, toujours pour cette période, n'est pas anodin, comme le résume très bien Meredith L. McGill :

{{< citation ref="mcgill_format_2018" page="674" lang="en" >}}
From a publisher's perspective, format is where economic and technological limitations meet cultural expectations.
{{< /citation >}}

Le format concerne donc autant la conception, la production, la diffusion, la circulation ou la réception d'un artefact éditorial.
Aujourd'hui, pour l'impression de grands tirages comme c'est le cas avec la technique de l'offset, la question du nombre de pages qui peuvent être disposées sur une _feuille_ se pose encore.
Ceci explique par exemple le format "48CC" en usage dans le domaine de la bande dessinée en Europe depuis le milieu du vingtième siècle {{< cite "menu_plates-bandes_2005" >}}, qui correspond à un album de 48 pages (en couleur et avec une couverture cartonnée).
Ce format est pensé pour rentabiliser la production de livres à grand tirage dans le secteur de la bande dessinée {{< cite "deyzieux_les_2008" "62" >}}, chaque objet nécessite trois feuilles au format A1, chacune d'elles formant un feuillet de 16 pages — 16 fois 3 étant égal à 48.
Par ailleurs chaque page comporte huit cases, ce qui permet de construire un récit cohérent de 48 fois 8 cases.
Le format du support est ici dicté par un désir de bénéfice maximal en imposant une structure de récit.

Toujours dans le domaine de l'impression, mais cette fois avec des machines plus accessibles — les imprimantes dites _de bureau_ —, la question se pose aussi de savoir si tous les formats de papier peuvent être pris en compte.
Tout d'abord concernant des tailles très variables, en effet une norme ISO distingue plusieurs dimensions au niveau mondial {{< cite "kinross_a4_2009" >}}, les plus communs A4 et A3 pouvant être pris en charge sur une grande variété d'imprimantes grand public comme professionnelles.
Ensuite concernant la compatibilité, notamment avec le cas de l'Amérique du Nord qui n'a pas adopté la norme ISO.
L'_US Letter_ est l'équivalent du A4 tout en étant différent (21,6 × 27,9 cm contre 21 × 29,7 cm pour l'A4).
Les imprimantes sont capables de prendre en compte ces deux formats.
Ce qui semble évident lorsque nous imprimons un document ou que nous feuilletons un livre — donc lorsque nous produisons une information ou lorsque nous y accédons — requiert tout un système dont nous ne prenons pas toujours conscience.
Cette circulation de l'information se déroule aussi entre un dispositif informatique et une imprimante, elle ne concerne donc pas que des artefacts imprimés mais aussi des informations numériques, c'est le cas des données permettant à l'imprimante d'inscrire des lettres sur du papier avec de l'encre.
Pour communiquer avec l'imprimante il faut un ordinateur compatible.
Après les formats littéraires et les formats d'impression, qu'en est-il des formats informatiques ou numériques qui permettent d'éditer aujourd'hui ?

Un format est une suite d'instructions, de "règles", un format _informatique_ structure des informations pour pouvoir être lues et interprétées par une machine et un programme, il s'agit de spécifications techniques.
Le format est à distinguer du protocole : le format définit la façon dont les informations sont décrites et stockées, alors que le protocole se réfère à la manière dont une communication est permise entre des formats.

{{< citation ref="bachimont_ingenierie_2007" page="237" >}}
Le numérique, c’est la question des formats.
{{< /citation >}}

{{< citation ref="ebsi_terminologie_2018" >}}
Un format de document numérique est constitué d’un ensemble de contraintes (ou règles) morphologiques (de forme) et de règles d’interprétation applicables au contenu du fichier (unique) ou des fichiers (multiples) composant un document numérique.
{{< /citation >}}

En informatique, donc, un format est la condition d'"interprétation", donc de calculabilité, d'un ensemble de données, ainsi que la garantie d'une communication entre plusieurs dispositifs ou programmes.
Pour reprendre le cas de l'impression _de bureau_, pour qu'un fichier stocké sur un ordinateur puisse être imprimé par une imprimante, encore faut-il que les deux appareils puissent communiquer, et plus précisément que l'imprimante comprenne les instructions données par un logiciel qui est opéré sur l'ordinateur.
Un aparté est nécessaire ici : l'origine du logiciel libre vient justement de cette difficulté à transmettre une information depuis un ordinateur vers une imprimante, lors de l'apparition des premiers programmes propriétaires, développés alors par Xerox {{< cite "williams_richard_2013" "2-16" >}}.
Nous retrouvons ici les contraintes économiques déjà aperçues avec l'arrivée de l'imprimerie à caractères mobiles : le format est aussi un enjeu de pouvoir.
Celle ou celui qui définit les spécifications d'un format maîtrise la circulation de l'information.
Dévoiler le fonctionnement d'un format engage donc vers une plus grande connaissance des enjeux liés au numérique, et donc au monde qui nous entoure _aujourd'hui_. 
Il nous faut désormais nous attarder sur ces questions de transmission de données dans le domaine numérique.


### 4.1.2. Formats, logiciels et compatibilités

Si le processus de l'édition imprimée peut être en partie dévoilé grâce à l'examen des formats (originels ou produits), que nous dit une analyse des formats en informatique ou dans le numérique ?
La relation entre formats et logiciels révèle la façon dont ces objets numériques sont construits, mais aussi la manière de les utiliser et les possibilités de leur diffusion ou de leur évolution.
Pour expliciter cela nous prenons l'exemple de plusieurs logiciels et de leur format concordant, avant d'aborder la question des standards.

Premier avertissement nécessaire ici, en informatique le _format_ ne doit pas être confondu avec la _version_, même si une certaine proximité lexicale existe.
La distinction est délicate puisque que dans d'autres domaines les deux sont parfois interchangeables : dans l'édition notamment, où un _format_ de livre peut correspondre à une _version_ particulière, le support signifiant ainsi le contenu — comme nous l'avons déjà vu.
Mais une version peut aussi correspondre à un changement de format sans pour autant avoir une incidence sur le texte lui-même.
En informatique un format définit des spécifications techniques, principalement pour que des données puissent être lisibles par un programme ou bien un logiciel.
Une version permet d'identifier l'état d'une donnée, d'un fichier ou d'un programme.

Du point de vue des outils que nous utilisons en environnement numérique — donc les programmes, les logiciels ou les applications — un format est un ensemble de données structurées qui peuvent être traitées.
En informatique tout est une suite de bits — des zéros et des uns en base deux —, mais cette suite peut avoir des sens différents qui sont interprétés grâce au format.
Une image ou un texte sont tous les deux une série de bits, mais l'une est interprétable comme une image, et l'autre comme du texte.
Des algorithmes sont appliqués à ces données via un logiciel, ce dernier doit donc connaître le format pour pouvoir réaliser ces calculs.
C'est ainsi que, bien souvent, un format est attribué à un logiciel, ou un logiciel et son format sont conjointement développés.
Dans le champ de l'édition — pris au sens large —, cela est particulièrement visible avec des logiciels de traitement de texte ou de publication assistée par ordinateur.
Le cas de Microsoft Word est éclairant, tant le format DOC (avec la même extension `.doc`) est lié à ce logiciel, et inversement.

Microsoft Word est un traitement de texte, il est conçu pour interpréter et éditer — dans le sens de _modifier_ — le format DOC, sans pour autant laisser d'autres logiciels comprendre ce format.
À l'inverse, le format DOC est développé pour pouvoir conserver (et transmettre) des informations avec le logiciel Microsoft Word.
D'un côté ce logiciel est capable d'enregistrer des données dans d'autres formats (comme le format RTF pour Rich Text Format), mais en perdant un certain niveau de précision (pour ne pas dire _fonctionnalités_).
D'un autre côté, pendant longtemps il était difficile voire impossible d'enregistrer des données au format DOC avec un autre logiciel.
Cette absence de compatibilité — un format lisible par différents logiciels — s'explique pour plusieurs raisons.
La première révèle une logique fonctionnaliste.
Pour s'assurer du meilleur fonctionnement possible du logiciel, la maîtrise du format est nécessaire.
Dans le cas de Word et DOC, ce principe est poussé à son paroxysme puisque leur développement est réalisé par Microsoft dans le plus grand secret.
Si le format DOC a une spécification technique, elle n'est pas accessible, il n'est donc pas possible de connaître les instructions permettant de structurer les données.
Pire, il est interdit de regarder le code source de ce format.
Celui-ci étant un format exécutable et non un format texte facilement lisible, un logiciel est forcément nécessaire pour décoder ce qu'il contient.
C'est la seconde raison de l'absence de compatibilité, le format et le logiciel sont propriétaires, leur accès n'est permis qu'à certaines conditions très limitées.
Tout d'abord leur utilisation nécessite un échange financier, et ensuite pour empêcher une distribution non contrôlée le logiciel est placé sous une licence propriétaire — reconnue légalement.

Jusqu'au développement par Microsoft du format normalisé Office Open XML, le format DOC n'était que très difficilement accessible en dehors de l'environnement de Word.
D'autres logiciels sont parvenus à créer une compatibilité limitée, comme OpenOffice Writer, LibreOffice Writer ou Apple Pages, en tentant de comprendre le fonctionnement de DOC.
Pendant plusieurs années, ce format a été développé sans en révéler ses spécifications, limitant aussi son utilisation en dehors des systèmes d'exploitation compatibles avec Microsoft Word.
Impossible donc d'utiliser Word sur Linux par exemple.
Par ailleurs, il s'agit d'un format binaire, donc une série de bits, contrairement au format `.docx`, textuel, qui permet une certaine lisibilité. 
Cette dépendance développée et entretenue par une entreprise privée n'est pas pour autant inéluctable, des efforts de standardisation ouverte de formats comme ceux utilisés par les traitements de texte sont réalisés pour des raisons idéologiques ou politiques, par exemple permettre à toute personne de pouvoir ouvrir un fichier quel que soit son environnement informatique ; ou pour des raisons économiques, par exemple Microsoft a fait le choix de standardiser son format (via des normes ISO) pour permettre une meilleure compatibilité de lecture et conserver ainsi une forme de monopole — à l'origine basé sur le format, rappelons-le.

La réalisation d'un format standard de traitement de texte compatible entre plusieurs systèmes d'exploitation ou logiciels est une initiative qui a permis d'envisager un monde sans Word, ou tout du moins un monde où Word ne serait plus le seul outil plébiscité, à défaut de se passer de ce type d'outil d'écriture — nous y revenons par la suite{{< renvoi chapitre="5" section="1" >}}.
Le format OpenDocument a été développé conjointement avec la suite de logiciels LibreOffice{{< n >}}L'histoire de ce logiciel n'est pas développée ici, quoi qu'elle représente un intérêt pour comprendre les jeux de pouvoir entre logiciels _open source_ et libres.{{< /n >}}, proposant notamment un traitement de texte avec LibreOffice Writer.
Si certains organismes, comme des administrations en Europe, ont choisi le libre pour des questions d'autonomie et de pérennité {{< cite "berne_ministere_2014" >}}, Microsoft Word est encore un logiciel qui domine les usages.
Le développement d'un standard ouvert ne suffit donc pas à modifier totalement les pratiques, mais ce n'est pas là l'objet de notre étude.
Précisons désormais de quoi il s'agit lorsque nous parlons de _standard_.


### 4.1.3. Standards et interopérabilité

Un standard est un ensemble de descriptions techniques formalisées, documentées et partagées, comme nous l'avons vu précédemment{{< renvoi chapitre="3" section="1" >}}.
L'établissement d'un standard résulte d'une volonté de rendre compréhensible une structuration de données, dans un environnement donné.
Cette dernière précision est importante, car le degré d'ouverture d'un standard peut varier.
D'une certaine façon, le format DOC est un standard au sein de l'environnement fermé de Microsoft, mais ses spécifications ne sont pas partagées.
La normalisation est un autre moyen pour s'accorder sur la détermination d'un format, mais il s'agit alors d'une forme de labellisation donnée par un organisme agréé, qui entraîne souvent des coûts pour qui souhaite connaître les spécifications, participer à l'entreprise de description, ou faire reconnaître une norme.
C'est le choix adopté par Microsoft avec le format Office Open XML en 2006.
L'enjeu des standards _ouverts_ est de permettre une compatibilité dans différents contextes via la publication d'une documentation et de recommandations, pour enclencher ensuite une potentielle implémentation de cette compatibilité.
Cette entreprise de standardisation d'un format révèle les processus politiques de légitimation sous-jacents comme le soulignent Axel Volmar, Marek Jancovic et Alexandra­Schneider {{< cite "volmar_format_2019" "16" >}}.
Le développement d'un standard ouvert se fait via une communauté en partant des besoins de celle-ci, et c'est là un point déterminant :

{{< citation ref="goldfarb_sgml_1990" page="ix" lang="en" >}}
Real standards do not suddenly appear. They emerge from one of two processes, informal or formal, during which a proposed standard is recognized as reflecting real needs.
{{< /citation >}}

Dans l'environnement numérique que constituent Internet et le Web, l'exemple des Requets for Comments{{< n >}}[https://www.rfc-editor.org](https://www.rfc-editor.org){{< /n >}} illustre ces dimensions de clarification, d'énonciation et de publication déployées pour constituer des standards — en précisant toutefois que les RFCs ne sont pas toutes des standards {{< cite "crocker_not_1995" >}}.
Dans un champ connexe — le livre numérique — la standardisation du format EPUB révèle des objectifs divers, tant sur des questions d'accessibilité que sur les enjeux économiques comme nous l'avons exposé dans le chapitre précédent{{< renvoi chapitre="3" section="2" >}}.
Dans un autre domaine, l'encodage de documents dans le champ académique, l'exemple de la TEI (_Text Encoding Initiative_) offre un aperçu de ce que cela implique.
Sans en faire une étude de cas, nous présentons quelques éléments de la constitution du format XML-TEI pour comprendre les motivations nécessaires et le travail fourni permettant d'aboutir à un standard ouvert.

La _Text Encoding Initiative_ est un format de structuration de données mais également une communauté au sein des humanités numériques, dont l'objectif est l'encodage de textes.
Le format TEI est plus spécifiquement un _schéma_ XML, créé en 1987 par et pour la communauté scientifique afin de pallier à un manque de ressources pour décrire et publier des ressources textuelles.

{{< citation ref="burnard_quest-ce_2015" >}}
Si vous accordez plus d’importance aux mots de votre texte et à leur sens qu’à la façon dont ils sont disposés sur la page, vous rencontrerez bien vite des limites frustrantes en utilisant un traitement de texte classique.
{{< /citation >}}

Les besoins des scientifiques qui travaillent sur du texte sont multiples, comme l'identification de la structure d'un document (titres, sous-titres, citations ou numéro de page de l'édition imprimée originale), l'identification de divers éléments comme les personnes, les dates ou les lieux, ou l'intégration de métadonnées riches et structurées.
Un outil classique comme un traitement de texte ne peut clairement pas remplir cette mission.
La TEI comporte un langage de balisage pour réaliser un travail sémantique dans l'objectif de conserver ces informations ou de pouvoir obtenir un artefact lisible — typiquement un site web avec l'accès à la richesse sémantique du document, ou une édition imprimée pour une transcription graphique.
À ce jour la TEI est le seul moyen d'encoder un document de façon sémantique et interopérable.
Cette interopérabilité est permise par un important travail de définition du format, qui représente plus de deux mille pages dans sa version imprimable au printemps 2023 {{< cite "tei_consortium_tei_2023" >}}.
Il s'agit de détailler le fonctionnement du schéma — ce que nous ne faisons pas ici — afin de permettre une compréhension autant par des humains que par des programmes.
Ces derniers peuvent être développés pour éditer ce format, l'afficher ou le publier.
Le parcours de la standardisation est relativement long et fastidieux dans le cas de la TEI, il requiert une structure particulière pour recevoir, traiter voir implémenter des demandes.

{{< code type="code" legende="Exemple d'un des fichiers XML d'un format DOCX contenant un titre, un paragraphe et un terme identifié comme un concept (du code a été omis pour la démonstration)" >}}
<w:body><w:p><w:pPr>
<w:pStyle w:val="Titreprincipal"/><w:bidi w:val="0"/><w:spacing w:before="240" w:after="120"/><w:jc w:val="center"/></w:pPr><w:r><w:rPr></w:rPr>
<w:t>Titre de mon document</w:t>
</w:r></w:p>
<w:p><w:pPr><w:pStyle w:val="Corpsdetexte"/><w:bidi w:val="0"/><w:spacing w:lineRule="auto" w:line="276" w:before="0" w:after="140"/><w:jc w:val="left"/><w:rPr></w:rPr></w:pPr><w:r><w:rPr></w:rPr><w:t xml:space="preserve">Texte de description, définissant ce qu’est un </w:t></w:r><w:r><w:rPr><w:rStyle w:val="Concept"/></w:rPr><w:t>livre</w:t></w:r><w:r><w:rPr></w:rPr><w:t>.</w:t></w:r></w:p><w:sectPr><w:type w:val="nextPage"/><w:pgSz w:w="12240" w:h="15840"/><w:pgMar w:left="1134" w:right="1134" w:gutter="0" w:header="0" w:top="1134" w:footer="0" w:bottom="1134"/><w:pgNumType w:fmt="decimal"/><w:formProt w:val="false"/><w:textDirection w:val="lrTb"/></w:sectPr></w:body>
{{< /code >}}


{{< code type="code" legende="Exemple d'un fichier XML dont le schéma est inventé, et contenant un titre, un paragraphe et un terme identifié comme un concept" >}}
<titre>Titre de mon document</titre>
<paragraphe>Texte de description, définissant ce qu'est un <concept identifiant="livre">livre</concept>.</paragraphe>
{{< /code >}}

{{< code type="code" legende="Exemple d'un fichier XML-TEI contenant un titre, un paragraphe et un terme identifié comme un concept (du code a été omis pour la démonstration)" >}}
<title type="main">Titre de mon document</title>
<p>Texte de description, définissant ce qu'est un <term xml:id="livre">livre</term>.</p>
{{< /code >}}

L'apport d'un tel standard ouvert est considérable, et concerne principalement les pratiques d'encodage, la formalisation via une méthode de balisage permet en effet à une communauté scientifique de partager des façons de faire.
En plus d'être un dispositif de formalisation de pratiques, le développement du standard permet aussi à d'autres acteurs ou structures de développer des applications ou des programmes pour lire et éditer le format XML-TEI (comme oXygen ou LEAF-VRE), pour produire des éditions numériques (avec TEI Publisher) ou pour effectuer des conversions vers d'autres formats de balisage (via XSLT, ou via le convertisseur Pandoc pour la version simplifiée de la TEI){{< n >}}Ce ne sont là que quelques exemples de projets développés à partir du format TEI.{{< /n >}}.
Un dernier point concerne la nécessité de maintenir un standard, en effet cela demande des mises à jour régulières et donc des ressources humaines parfois importantes.

La TEI est un ensemble de bonnes pratiques, constituées d'un format qui inclut lui-même un langage _sémantique_, ce qui signifie que le sens des différents éléments d'un texte peuvent être annotés afin d'être traités.
Le cas de la TEI nous permet d'introduire cette nouvelle notion, en plus de la standardisation, de la compatibilité et de l'interopérabilité, il s'agit donc de décrire le sens avec la sémantique, et d'exprimer cela à travers un format.


### 4.1.4. Pour une _sémantique_ du texte

Un format décrit des données pour qu'elles puissent être traitées, cette formalisation est porteuse de sens.
C'est ce que nous qualifions ici de _sémantique_, l'usage de ce terme concerne ici le texte en tant qu'objet (ou source) éditorial ou comme ensemble de données — étant donné la signification distincte de _sémantique_ dans les domaines de la sémiologie ou de la linguistique notamment.
Le traitement sémantique d'un texte consiste en l'identification de ses différents éléments, partant du fait qu'un texte n'est pas qu'une suite de mots, de phrases, de paragraphes ou de parties ayant tous la même valeur.
Si nous prenons un exemple trivial comme un document qui comporte un titre, un paragraphe et une citation longue, ces trois éléments représentent déjà plusieurs niveaux d'information : un titre est un moyen de nommer un document, voire de le résumer ; un paragraphe est un bloc de texte qui se distingue d'autres blocs de texte ; une citation longue est un bloc de texte particulier qui est rattaché à un auteur ou à une autrice, et qui peut être lié à une référence.
Nous distinguons habituellement ces niveaux par un moyen graphique, que ce soit un artefact imprimé ou numérique, par exemple en attribuant une taille de texte plus grande pour le titre ou un alignement sur la page plus important pour la citation.
Ainsi nous pouvons repérer _visuellement_ que le premier élément est plus important que le second, et que le troisième est d'une nature distincte.
Un format sémantique sépare les données purement textuelles de l'identification que porte chacun des éléments du texte.
Sur une page imprimée, un titre, un paragraphe et une citation sont identifiés de façon "superficielle et provisoire plutôt qu'essentielle" comme l'explique les auteurs de "What is Text, Really?" :

{{< citation ref="derose_what_1990" page="3" lang="en" >}}
The essential parts of any document form what we call "content objects," and are of many types, such as paragraphs, quotations, emphatic phrases, and attributions. Each type of content object usually has its own appearance when a document is printed or displayed, but that appearance is superficial and transient rather than essential — it is the content elements themselves, along with their content, which form the essence of a document.
{{< /citation >}}

Jusqu'ici nous avons utilisé le terme de "texte" pour définir la matière du travail d'édition, et le terme d'artefact pour qualifier le résultat de ce travail.
Nous devons désormais utiliser la notion de "document" pour clarifier l'espace où le texte se déploie d'un point de vue sémantique.
Un document numérique est l'addition de données et de leur structuration {{< cite "pedauque_document_2006" >}}, le format (informatique) est un moyen de contenir les données et d'exprimer cette structure.
Plutôt que d'interroger l'intérêt de sémantiser un texte, et donc de recourir à un format sémantique, il s'agit plutôt de considérer que tout texte a forcément une dimension sémantique{{< n >}}Telle que nous définissons la sémantique.{{< /n >}}.
Même un texte en prose de plusieurs pages dispose d'une structure sémantique, qui peut consister à un seul paragraphe, ou au repérage de chaque phrase, ou à une structuration plus précise comme l'identification d'éléments tels que des personnes, des concepts ou tous les noms communs.
Il s'agit ici d'ailleurs d'exemples qui dépassent ce qui est habituellement identifiable avec des moyens graphiques.
Faut-il alors tout identifier dans un texte ?

La question de la limite de la sémantisation d'un texte doit prendre en compte les objectifs inhérents au projet.
En effet, une fois les principaux éléments d'un document identifiés — tels que les titres et sous-titres, ou les paragraphes —, le niveau de précision peut grandement varier.
C'est toute la question que pose une opération d'encodage de manuscrits, faut-il aller jusqu'à désigner chaque saut de ligne ?
Est-il pertinent de faire correspondre chaque pronom personnel à une personne physique ?
Tout dépend du but final qui peut être de plusieurs natures.
Un document sémantique facilite la composition d'un texte en qualifiant les informations qui seront distinguées visuellement dans l'artefact final, et sans ambiguïté pour faciliter un travail collectif.
Cela permet également de dissocier la valeur de ces informations de leur mise en forme graphique, en utilisant une feuille de styles appliquée à la structure.
Enfin le texte peut être transformé en une base de données, les différents éléments pouvant être extraits et stocker indépendamment les uns des autres, pour ensuite être manipulés dans d'autres contextes d'utilisation.
Ces possibilités sont décrites plus précisément dans l'article de Steven J. DeRose, David G. Durand, Elli Mylonas et Allen H. Renear, publié en 1990 {{< cite "derose_what_1990" >}}, et qui propose une modélisation générique, ouverte et structurante.
Dernier point qui vient s'ajouter à cette liste : la conservation sur le long terme des informations sémantiques d'un texte, qu'il soit issu d'une transcription d'un document manuscrit ou imprimé, ou qu'il soit _nativement_ numérique.
Quelle que soit la façon dont est exprimée cette sémantique, s'il y a un standard alors il sera toujours possible de décrypter les informations pour une réutilisation.
Un texte peut prendre de multiples dimensions, encore faut-il être en mesure de concevoir un format qui stocke et code ces nombreux paramètres.

Le traitement sémantique du texte a une histoire longue à l'échelle de celle de l'informatique, nous nous attardons sur plusieurs formats et leur logiciel pour expliquer l'émergence de cette sémantisation du texte pour l'édition.
WordStar, l'un des premiers logiciels de traitement de texte développé pour des environnements DOS en 1978 (donc bien avant les systèmes d'exploitation de Windows ou Apple), comprend un système pour signifier certains détails sémantiques comme l'emphase, qui se traduit par de l'italique ou du gras {{< cite "kirschenbaum_track_2016" "1-9" >}}.
Une combinaison de touches permet d'identifier des caractéristiques sémantiques d'éléments du texte, tout cela étant stocké dans un fichier texte — sur lequel nous revenons plus tard{{< renvoi chapitre="4" section="2" >}}) —, l'interface de WordStar se rapprochant plus d'un terminal que d'un environnement graphique comme les logiciels développés à partir de la fin des années 1980.

Autre exemple de tentative de sémantisation, la même année, avec le format TeX que nous avons déjà présenté{{< renvoi chapitre="3" section="3" >}}.
Un système de _commandes_ identifie des portions de texte ou des éléments de structure, d'abord dans une finalité de composition graphique, mais cette dernière traduit malgré tout une volonté de donner du sens au texte.
Comme nous l'avons vu, les choses se compliquent avec le format DOC, fermé, mais qui pose un autre problème : les informations sémantiques sont mêlées avec celles concernant la mise en forme.
L'objectif principal du logiciel Microsoft Word est de rédiger des documents pour les imprimer, voir pour les conserver au format DOC ou éventuellement au format PDF — ce dernier figeant la mise en forme mais empêchant toute édition.
Word applique le modèle de la page imprimée, à tel point que l'interface n'invite pas à réfléchir à la structure d'un document autrement que par son rendu graphique final.
GML survient dans ce contexte d'édition de documents destinés à être imprimés, et repose sur une logique de _balises_ — qui donnera naissance à XML puis HTML.
Le format devient SGML pour séparer strictement _sens_ du texte et _mise en forme_, et introduit ainsi la question du _marquage_ des documents.

Étudier la notion de "format" nous invite à questionner les enjeux de compatibilité, d'interopérabilité ou de standard, voici comment nous le conceptualisons : 

{{< definition type="definition" intitule="Format" id="format" >}}
Un format définit la façon dont des informations sont décrites et stockées, il s'agit d'une série d'instructions formalisées afin qu'une action soit réalisée par un agent.
L'établissement d'un format est la condition de circulation d'une information, son choix révèle donc une intention mais aussi un acte.
Dans l'édition, le format définit les caractéristiques techniques de la modélisation du texte, de sa structure et de la façon dont ses artefacts peuvent être produits.
Il peut faire l'objet d'un standard afin d'être partagé et de permettre une interopérabilité voire une modularité.
Définir un format n'est pas une action neutre, et participe à l'acte éditorial dans son ensemble.
{{< /definition >}}

Ces dimensions nous permettent d'aborder des formats spécifiques qui sont une façon d'appliquer la sémantique, les formats de balisage.