Text only | Skip links
Skip links||IT Services, University of Oxford

1. Données numériques, textes numériques...

Les textes numérisés ne sont pas des livres, sauf par métaphore...

... mais c'est une métaphore très difficile à éviter, qui limite nos capacités de profiter de la numérisation.

2. Quel est ce bruit dans la bibliothèque numérisée?

  • la numérisation devrait comprendre les intentions, les lectures, des textes, non seulement leurs mises en formes
  • cela permet les analyses au-delà des documents, la conversation entre les livres

3. Les noms

La TEI offre plusieurs éléments pour représenter les dénominations:
  • <rs> ("referring string") -- n'importe quelle expression qui fait référence par exemple ‘la personne dont j'ai parlé’
  • <name> une expression reconnue comme nominale p.e. ‘Jules’ , ‘Bouallebec’...
  • <persName>, <placeName>, <orgName>: ‘sucre syntaxique’ pour <name type="person"> etc.
  • En plus, il y a des propositions plus complexes pour les composants de ces expressions nominales, p.e. <surname>, <forename>, <geogName>, <geogFeat> etc.

4. Les entités

Avant la version P5.1.0, la TEI hésitait à aller plus loin dans le domaine des bases de données, tout en reconnaissant l'importance de fournir une manière d'encoder non seulement les références, mais également les entités référencées. On a maintenant:

  • <person> en correspondance avec <persName>
  • <place> en correspondance avec <placeName>
  • <org> en correspondance avec <orgName>
  • et en plus <relation>, <event>

5. Pourquoi?

  • pour faciliter un encodage plus fin et explicite de la lecture des textes (p.e. sources historiques) qui traitent des objets dans le monde réel
  • pour supporter l'encodage des documents qui ne contiennent que des données, p.e. les fichiers de références, biographiques, géographiques etc.
  • pour représenter et modéliser d'une manière cohérente les données implicites dans plusieurs documents divers

6. Théorie de référence

Un concept sémiotique fondamental
  • On peut se servir de la langue naturelle pour parler du monde parce qu'il existe des paroles qui ‘s'accrochent’ à des objets réels.
  • Les noms propres, les termes, les indexes constituent des exemples canoniques de ce genre de paroles
  • ‘Martin Luther King’ correspond à un entité spécifique; ‘Lyon’ correspond à un endroit spécifique; ‘River Thames’ correspond à une riviere spécifique
  • Quand on fait une traduction entre langues naturels, soit les noms propres restent pareilles, soit il existe des équivalences conventionnelles

7. Comment faire la liaison

Tout élément membre de la classe att.naming hérite deux attributs de la classe att.canonical:
key
fournit un moyen, défini de façon externe, d'identifier l'entité (ou les entités) nommé(es), en utilisant une valeur codée d'un certain type.
ref
fournit un moyen explicite de localiser une définition complète de l'entité nommée au moyen d'un ou plusieurs URIs
et en plus l'attribute
nymRef
indique comment localiser la forme canonique (nym) des noms qui sont associés à l'objet nommé par l'élément qui le contient.

Il y a un redondance si on comprends bien ce que c'est qu'un URI

8. Exemple

<p>... <name ref="#jsbachtype="person">Jean-Sébastien
   Bach </name> le compositeur allemand est né
en 1685... </p>
<p>... <name ref="grove:jsbachtype="person">Jean-Sébastien
   Bach </name> le compositeur allemand est né
en 1685... </p>

9. Les références sont multiformes

Même dans un seul langage, dans un même texte, on fera référence à la même personne dans plusieures manières:
...<persName>Clara Schumann</persName>.... <persName>Clara</persName> ....
<persName>Frau Schumann</persName>
Les attributs key ou ref servent à réunir tous les références à une même personne:
....
<persName ref="#CS">Clara Schumann</persName>....
<persName ref="#CS">Clara</persName> ....

<persName ref="#CS">Frau Schumann</persName>
<!-- ... elsewhere -->
<person xml:id="CS">
 <persName xml:lang="de">
<!-- tout ce qu'on veut preciser sur cette dame -->
 </persName>
</person>

10. Composants des <persName>

<persName ref="#jsbachxml:lang="de">
 <forename type="first">Johann</forename>
 <forename type="middle">Sebastian</forename>
 <surname>Bach</surname>
</persName>
<persName ref="#jsbachxml:lang="fr">
 <forename type="composé">Jean-Sebastien</forename>
 <surname>Bach</surname>
</persName>
en plus: <roleName> (p.e. ‘Empereur’), <genName> (p.e. ‘l'ainé’) <addName> (p.e. ‘le barbu’), <nameLink> un lien entre composants (p.e. ‘van der’) ...

11. Les références sont aussi ambiguës

<s>Jean aime <name ref="#NN123">Nancy</name>
</s>
On peut désambiguïser en se servant d'une balise plus précise (<persName> ou <placeName>), ou en suivant le pointer:
<person xml:id="NN123">
 <persName>
  <forename>Nancy</forename>
  <surname>Ide</surname>
 </persName>
<!-- ... -->
</person>
ou bien...
<place xml:id="NN123">
 <placeName notBefore="1400">Nancy</placeName>
 <placeName notAfter="0056">Nantium</placeName>
<!-- ... -->
</place>

12. Hiérarchie de noms des lieux

13. Composants des noms des lieux

  • <placeName> (les noms peuvent s'imbriquer)
  • <geogName> nom associe avec un particularité géographique, p.e. une montagne, une fleuve
  • <geogFeat> terme identifiant l'espèce de particularité géographique
<placeName>
 <geogFeat>Mont</geogFeat>
 <geogName>Blanc</geogName>
</placeName>

14. Qu'est-ce qu'on dira sur les entités?

<person xml:id="VM1893">
 <persName xml:lang="ru">Владимир Владимирович Маяковский</persName>
 <persName xml:lang="fr">Wladimir Maïakowski</persName>
 <birth when="1893-07-19">7 July (OS) 1893, <placeName ref="#BGDTxml:lang="en">Baghdati, Georgia</placeName>
 </birth>
 <death when="1930-04-14"/>
 <occupation>Poet and playwright, among the foremost representatives of early-20th century Russian Futurism.</occupation>
</person>

Quelles informations seraient essentielles pour une telle définition?

15. Traits, States, et Events

En TEI, comme ailleurs, en cas de doute on propose des abstractions: dans ce cas, on distingue trois classes des infos:
  • <trait>: une caracteristique plus ou moins intrinsique à un entité specifique, qui (normalement) ne change pas dans le temps (p.e. couleur des yeux, location)
  • <state>: un état qui reste en valeur pendant un temps précise (p.e. occupation, population)
  • <event>: un évenement indépendent qui pourrait mener à un changement d'état ou de caractéristique, (p.e. naissance, une guerre)

Ces éléments prototypiques sont completés par des éléments plus specifiques, membres de la même classe, qui servent à la plupart des besoins habituels.

Tous ces éléments sont membres de la class ‘datable’, qui permet de les placer dans le temps

16. Traits

Quelques exemples de traits personnels
  • <faith>: la foi, religion, vel sim, d'une personne
  • <langKnowledge>: ses connaissances linguistiques
  • <nationality>: sa nationalité
  • <sex>: son sexe
  • <socecStatus>: son statut socio-économique
Quelques exemples de traits géographiques
  • <climate>: description du climat habituel
  • <location>: description de localisation géographique
  • <population>: description de population
  • <terrain>: description du terrain

17. States

Quelques exemples de "states" personnels
  • <occupation> an informal description of a person's trade, profession or occupation
  • <residence> (residence) a person's present or past places of residence
  • <affiliation> an informal description of a person's present or past affiliation with some organization
  • <education> a description of the educational experience of a person
  • <floruit> contains information about a person's period of activity

18. Les lieux se définissent par leur localisation

L'élément <location> contient
  • une description plus ou moins structurée, selon des aires politico-géographiques
  • un ensemble de coordonnées géographique
<place type="building">
 <placeName>Brasserie Georges</placeName>
 <location>
  <country key="FR"/>
  <settlement type="city">Lyon</settlement>
  <district type="arrondissement">Perrache</district>
  <placeName type="street">cours de Verdun</placeName>
 </location>
 <location>
  <geo>45.748 4.828</geo>
 </location>
</place>

19. Un lieu peut être fictif

<place type="imaginary">
 <placeName>Atlantis</placeName>
 <location>
  <offset>au delà des</offset>
  <placeName>piliers d'<persName>Hercule</persName>
  </placeName>
 </location>
</place>

20. Un lieu peut s'imbriquer

<place xml:id="LT">
 <country>Lithuania</country>
 <country xml:lang="lt">Lietuva</country>
 <place xml:id="LT-VN">
  <settlement>Vilnius</settlement>
 </place>
 <place xml:id="LT-KA">
  <settlement>Kaunas</settlement>
 </place>
</place>

21. Evénements

Pour les personnes, il y a deux événements très spécifiques: <birth> et <death>. A part ceux-ci, tout doit être representé par la balise générique <event>, et son attribut type.

<person xml:id="rwagner">
 <persName>
  <forename>Richard</forename>
  <surname>Wagner</surname>
 </persName>
 <birth when="1813-05-22"/>
 <event type="marriagewhen="1836-11-24">
  <desc>Le 24 November 1836, Wagner se marie avec
  <persName ref="#MINPLAN">Minna Planer </persName>. </desc>
 </event>
 <event type="movenotBefore="1836-11-24">
  <desc>Les Wagner se déplacent vers la ville de
  <placeName>Riga</placeName>, à cette époque dans
  <bloc>l'empire Russe</bloc>.</desc>
 </event>
</person>

22. Datation

On peut associer une datation normalisée plus ou moins précise ou étendue, selon les normes W3C ou ISO en se servant des attributs suivants:
when
une date exacte p.e. 2010-06-09:16:30
notBefore
spécifie la date la plus ancienne pour l'événement.
notAfter
spécifie la date la plus récente possible pour l'événement.
from
indique le point de départ d'une période.
to
indique le terme d'une période

Toute date doit être normalisée selon le calendrier julien

23. Relations

Les rapports ou relations entre personnes s'expriment avec la balise <relation>

On distingue les relations ‘réciproques’ (p.e. la parenté) des relations à sens unique (p.e. la paternité).

Les attributs suivants sont disponibles:
name
un nom pour le type de relation dont il s'agit
type
caractérise la relation sous un certain aspect, par exemple social, personnel ou autre.
active
identifie les participants actifs dans une relation à sens unique, ou tous les participants dans une relation réciproque.
mutual
fournit une liste de participants entre lesquels la relation est réciproque
passive
identifie les participants ‘passifs’ dans une relation à sens unique

24. Exemple

<person xml:id="jsbach">
 <persName>Johann Sebastian Bach</persName>
</person>
<person xml:id="cdbach">
 <persName>Catharina Dorothea Bach</persName>
</person>
<person xml:id="ghbach">
 <persName>Gottfried Heinrich Bach</persName>
</person>
<!--….-->
<relationGrp type="childrensubtype="first-marriage">
 <relation name="parentactive="#jsbachpassive="#cdbach"/>
<!--….-->
</relationGrp>
<relationGrp type="childrensubtype="second-marriage">
 <relation name="parentactive="#jsbachpassive="#ghbach"/>
<!--….-->
</relationGrp>

25. Nyms

Les éléments <listNym> et <nym> servent à definir les versions canoniques d'un nom de toute sorte
  • <nym>
    • peut contenir model.entryParts (ex. <form>, <orth>, <etym>) and peut aussi inclure des <nym>s englobés
    • peut porter un attribut parts qui pointe sur vers des <nym>s composants
  • <listNym> une list des noms canoniques
  • nymRef est également disponible pour pointer d'un nom vers sa forme canonique

26. Exemple

<nym xml:id="J45">
 <form xml:lang="la">Iohannes</form>
 <nym xml:id="J450">
  <form xml:lang="en">John</form>
  <nym xml:id="J4501">
   <form>Johnny</form>
  </nym>
  <nym xml:id="J4502">
   <form>Jon</form>
  </nym>
 </nym>
 <nym xml:id="J455">
  <form xml:lang="ru">Ivan</form>
 </nym>
 <nym xml:id="J453">
  <form xml:lang="fr">Jean</form>
 </nym>
</nym>


Date: January 2010
Copyright University of Oxford