Wortgeschichten·Zum Projekt Wortgeschichte digital
Die Lemmaliste führt alle von Wortgeschichte digital bereits publizierten Lemmata auf und ordnet sie der passenden URL zu.
In den Artikeln von Wortgeschichte digital wird zwischen Haupt- und Nebenlemmata unterschieden. Nebenlemmata sind Lemmata, die in einem Artikel kursorisch mitbehandelt werden. Die Artikellemmata werden alle im Kopf des jeweiligen Artikels angeführt. Es gibt unterschiedliche Artikeltypen:
Die einzelnen Lemmata können verschiedene Schreibungen haben (z. B. Soiree/Soirée). In der Lemmaliste werden alle Schreibungen separat aufgeführt.
Nebenlemmata sind immer mit einer Artikelposition verknüpft. In der Lemmaliste sind diese Lemmata an URLs erkennbar, die einen Hash haben. Z. B. Hippietum im Artikel Hippie:
https://www.zdl.org/wb/wortgeschichten/Hippie#Hippietum
Der Hash kann ruhig entfernt werden; man erreicht trotzdem den Artikel mit dem Nebenlemma. Nach dem Aufruf wird der Artikel dann allerdings nicht zur passenden Position gescrollt.
Wortfeldartikel sind an einem dem Artikelnamen vorgestellten Wortfeld- erkennbar. Z. B. Lebensformen:
https://www.zdl.org/wb/wortgeschichten/Wortfeld-Lebensformen
Beim XML-Download handelt es sich um eine ZIP-Datei, die alle von Wortgeschichte digital bereits publizierten Artikel im Format TEI P5 enthält.
Die XML-Dateien sind unter Creative Commons BY-SA 4.0 lizenziert. In die Artikel eingebundene Bilder, die i. d. R. unter einer anderen Lizenz stehen, finden sich nicht in der ZIP-Datei. Genauere Informationen zur Lizenz finden Sie im Footer der Artikel (z. B. in Elite). Diese Informationen sind in allen Artikeln identisch. Dort, im Footer, finden Sie auch einen Link, um gezielt einzelne XML-Dateien herunterzuladen.
Die Datendatei enthält diverse Metainformationen zu den einzelnen Artikeln und das Berechnungsergebnis der automatisch erstellten WGd-Verweiscluster. Die Metainformationen können – zumeist – auch direkt aus den XML-Dateien ausgelesen werden.
Die Datendatei ist größenoptimiert. Deswegen handelt es sich bei den Werten in den Schlüsseln articles
und clusters
häufig nur um Indizes, die einen Wert unterhalb von values
referenzieren.
articles | Object | Metainformationen zu den Artikeln |
---|---|---|
[ID] | Object | Artikel-ID Die ID ist identisch mit der ID der XML-Dateien ( /TEI/@xml:id ). |
au | Array | Autorinnen und Autoren (gefüllt mit Indizes) Die Indizes i zeigen auf values.au[i] . |
ds | Array | diasystematische Angaben (gefüllt mit 2- oder 3-Slot-Arrays) Jedes Array steht für einen diasystematischen Wert. Der 1. Slot i zeigt auf die Kategorie values.ds[i] . Der 2. Slot j zeigt auf den diasystematischen Wert values.ds[i][Kategorie][j] . Der 3. Slot ist ein Array oder undefined. Er ist nur in Mehrwortartikeln gefüllt und enthält Indizes der Lemmata, auf die der diasystematische Wert zutrifft. Diese Indizes k zeigt auf le[k] . |
eb | Array | Jahr des frühesten Belegs eines Lemmas (gefüllt mit Indizes) Die Indizes i zeigen auf values.eb[i] . Die Indizes korrespondieren mit le[i] , allerdings müssen Lemmata mit mehreren Schreibungen zunächst gesplittet werden. Ein Beispiel: In WGd-Ghetto-1 hat eb die Länge 2, aber le nur die Länge 1. Das ist deswegen so, weil die Werte in eb die beiden Schreibungen des Lemmas Ghetto/Getto separat adressieren: eb[0] verweist auf Ghetto und eb[1] auf Getto . |
le | Array | Lemmata (gefüllt mit Indizes) Die Indizes i zeigen auf values.le[i] . Manche Lemmata haben mehrere Schreibungen, die durch / voneinander getrennt sind. |
on | Number | Publikationsdatum (Index) Der Index i zeigt auf values.on[i] . |
se | Array | semantische Typisierung (gefüllt mit 2-Slot-Arrays) Der Index i des 1. Slots zeigt auf values.le[i] . Der Index j des 2. Slots zeigt auf values.se[j] . |
tf | Array | Themenfelder (gefüllt mit Indizes) Die Indizes i zeigen auf values.tf[i] . |
wa | Number | Wortfeldartikel1 = Dieser Artikel ist ein Wortfeldartikel.0 = Dieser Artikel ist kein Wortfeldartikel. |
clusters | Object | Verweiscluster |
[Themenfeld] | Array | Cluster zu einem Themenfeld Jedes Cluster besteht aus drei Objects, den Clusterkreisen: z (Zentrum), s (Saum) und u (Umfeld). Ist einer der Clusterkreise leer, hat er den Typ Array; z ist niemals leer. Die Nummer n , die Teil des Schlüssels ist und der ein _ voransteht, ist ein Index, der auf values.le[n] verweist. Er steht also für das Lemma. Jeder Schlüssel hat einen Wert vom Typ Number (Integer oder Float), der für die Gewichtung des Lemmas im jeweiligen Clusterkreis steht. Die Lemmata sind bereits nach ihrer Gewichtung sortiert. In der Artikelübersicht finden Sie eine Erläuterung zu den Clustern. |
z | Object | Zentrum |
[_n] | Number | Lemma und Gewichtung Die Nummer n im Schlüssel zeigt auf das Lemma in values.le[n] . Der Wert gibt die Gewichtung des Lemmas an. Diese Struktur ist in allen Clusterkreisen identisch. |
s | Object | Saum |
... | Number | s. o. |
u | Object | Umfeld |
... | Number | s. o. |
values | Object | ausgeschriebene Werte |
au | Array | Autorinnen und Autoren |
ds | Array | diasystematische Angaben (gefüllt mit Objekten) |
[Kategorie] | Array | Kategorie (gefüllt mit Werten) Das Array der Kategorie Sachgebiet kann z. B. die Werte Biologie, Medizin usw. enthalten. |
eb | Array | Jahre der frühesten Belege |
le | Array | Lemmata Manche Lemmata haben mehrere Schreibungen, die durch / voneinander getrennt sind. |
nl | Object | Nebenlemmata Die Schlüssel n sind nummerisch und korrespondieren mit values.le[n] , bezeichnen also das Lemma. Der Wert steht für ein @xml:id in der jeweiligen XML-Datei. Er verknüpft das Nebenlemma also mit einer bestimmten Position im Artikel. Gibt es in values.nl keinen Schlüssel, der dem Index i aus values.le[i] entspricht, handelt es sich bei dem Lemma in values.le um ein Hauptlemma. |
on | Array | Publikationsdaten |
se | Array | semantische Typen |
tf | Array | Themenfelder |
wf | Object | Wortfelder |
[Themenfeld] | Object | |
[Name] | Array | Bezeichnung des Wortfelds (gefüllt mit Indizes) Die Indizes i verweisen auf values.le[i] , stehen also für die Lemmata, die zu einem Feld gehören. |