Programmier­schnittstellen (API) von Wortgeschichte digital

Wortgeschichten·Zum Projekt Wortgeschichte digital

Lemmaliste (JSON)

Die Lemmaliste führt alle von Wortgeschichte digital bereits publizierten Lemmata auf und ordnet sie der passenden URL zu.

In den Artikeln von Wortgeschichte digital wird zwischen Haupt- und Nebenlemmata unterschieden. Nebenlemmata sind Lemmata, die in einem Artikel kursorisch mitbehandelt werden. Die Artikellemmata werden alle im Kopf des jeweiligen Artikels aufgeführt. Es gibt unterschiedliche Artikeltypen:

  • Artikel zu einem einzigen Lemma (z. B. Elite),
  • Artikel zu mehreren Hauptlemmata (z. B. Beaumonde · die schöne Welt),
  • Artikel mit Nebenlemmata (z. B. Masse mit den Nebenlemmata Massenpsychose und Massenhysterie),
  • Wortfeldartikel, die zusätzlich zu Einzelartikeln mehrere Stichwörter in einem Überblicksartikel behandeln (z. B. Lebensformen).

Die einzelnen Lemmata können verschiedene Schreibungen haben (z. B. Soiree/Soirée). In der Lemmaliste werden alle Schreibungen separat aufgeführt.

Nebenlemmata sind immer mit einer Artikelposition verknüpft. In der Lemmaliste sind diese Lemmata an URLs erkennbar, die einen Hash haben. Z. B. Hippietum im Artikel Hippie:

https://www.zdl.org/wb/wortgeschichten/Hippie#Hippietum

Der Hash kann ruhig entfernt werden; man erreicht trotzdem den Artikel mit dem Nebenlemma. Nach dem Aufruf wird der Artikel dann allerdings nicht zur passenden Position gescrollt.

Wortfeldartikel sind an einem dem Artikelnamen vorgestellten Wortfeld- erkennbar. Z. B. Lebensformen:

https://www.zdl.org/wb/wortgeschichten/Wortfeld-Lebensformen

XML-Download (ZIP)

Beim XML-Download handelt es sich um eine ZIP-Datei, die alle von Wortgeschichte digital bereits publizierten Artikel im Format TEI P5 enthält.

Die XML-Dateien sind unter Creative Commons BY-SA 4.0 lizenziert. In die Artikel eingebundene Bilder, die i. d. R. unter einer anderen Lizenz stehen, finden sich nicht in der ZIP-Datei. Genauere Informationen zur Lizenz finden Sie im Footer der Artikel (z. B. in Elite). Diese Informationen sind in allen Artikeln identisch.

Dort, im Footer, finden Sie auch einen Link, um gezielt einzelne XML-Dateien herunterzuladen. Die Download-URL ist identisch mit der Artikel-URL, die nur um die Dateiendung .xml ergänzt werden muss. Auf diese Weise könnten Sie mithilfe der Lemmaliste systematisch alle XML-Dateien herunterladen, was jedoch nicht ratsam ist, da es viele Artikel gibt, in denen mehr als ein Lemma zugleich behandelt wird, Sie auf diese Weise also ein und dieselbe Datei mehrfach herunterladen würden.

Zusammenfassung (JSON)

Mit dieser API kann die Zusammenfassung einer Wortgeschichte abgerufen werden, und zwar nach diesem Schema (z. B. Erika Mustermann):

https://zdl.org/wb/wgd/api/summary/LEMMA

Bei Wortfeldartikeln weicht das Schema leicht ab (z. B. Lebensformen):

https://zdl.org/wb/wgd/api/summary/Wortfeld-TITEL

Eine Liste der bereits behandelten Lemmata erhalten Sie über die oben beschriebene Abfrage.

Bei der Zusammenfassung handelt es sich um denselben Text, der unter der Überschrift Kurz gefasst der jeweiligen Wortgeschichte vorangestellt ist. Dementsprechend sind die Zusammenfassungen ebenso wie die Wortgeschichten unter Creative Commons BY-SA 4.0 lizenziert. Neben der Zusammenfassung finden sich im JSON-Snippet einige Metadaten des Artikels:

authors Array Autoren und Autorinnen
domains Array Themenfelder
lemmas Array Lemmata (gefüllt mit Objects)
lemma Array Schreibungen dieses Lemmas
Gibt es variierende Schreibungen, hat das Array eine Länge von > 1.
type String Lemmatyp

Mögliche Werte (s. o. die Erläuterungen zu den Lemmatypen):

main = Hauptlemma;
sub = Nebenlemma;
field = Titel des Wortfeldartikels.

publication String Publikationsdatum
Datumsangabe im ISO 8601-Format: YYYY-MM-DD.
summary String Zusammenfassung

Der Inhalt des Strings ist HTML. Es werden nur Standardtags vernwedet; daneben gibt es zwei Besonderheiten (empfohlene Darstellungsweise in beiden Fällen kursiv):

span.wgd-ez = objektsprachlicher Begriff;
span.wgd-stichwort = Artikelstichwort, also eines der Lemmata, die im Artikel behandelt werden.

url String URL zum Artikel

Artikeldaten (JSON)

Die Datendatei enthält diverse Metainformationen zu den einzelnen Artikeln und das Berechnungsergebnis der automatisch erstellten WGd-Verweiscluster. Die Metainformationen können – zumeist – auch direkt aus den XML-Dateien ausgelesen werden.

Die Datendatei ist größenoptimiert. Deswegen handelt es sich bei den Werten in den Schlüsseln articles und clusters häufig nur um Indizes, die einen Wert unterhalb von values referenzieren.

articles Object Metainformationen zu den Artikeln
[ID] Object Artikel-ID
Die ID ist identisch mit der ID der XML-Dateien (/TEI/@xml:id).
au Array Autorinnen und Autoren (gefüllt mit Indizes)
Die Indizes i zeigen auf values.au[i].
ds Array diasystematische Angaben (gefüllt mit 2- oder 3-Slot-Arrays)
Jedes Array steht für einen diasystematischen Wert. Der 1. Slot i zeigt auf die Kategorie values.ds[i]. Der 2. Slot j zeigt auf den diasystematischen Wert values.ds[i][Kategorie][j]. Der 3. Slot ist ein Array oder undefined. Er ist nur in Mehrwortartikeln gefüllt und enthält Indizes der Lemmata, auf die der diasystematische Wert zutrifft. Diese Indizes k zeigt auf le[k].
eb Array Jahr des frühesten Belegs eines Lemmas (gefüllt mit Indizes)
Die Indizes i zeigen auf values.eb[i]. Die Indizes korrespondieren mit le[i], allerdings müssen Lemmata mit mehreren Schreibungen zunächst gesplittet werden. Ein Beispiel: In WGd-Ghetto-1 hat eb die Länge 2, aber le nur die Länge 1. Das ist deswegen so, weil die Werte in eb die beiden Schreibungen des Lemmas Ghetto/Getto separat adressieren: eb[0] verweist auf Ghetto und eb[1] auf Getto.
le Array Lemmata (gefüllt mit Indizes)
Die Indizes i zeigen auf values.le[i]. Manche Lemmata haben mehrere Schreibungen, die durch / voneinander getrennt sind.
on Number Publikationsdatum (Index)
Der Index i zeigt auf values.on[i].
se Array semantische Typisierung (gefüllt mit Arrays)

Die Arrays können zwei oder mehr Slots lang sein. Der Index i des 1. Slots zeigt auf values.le[i]. Die Indezes j der folgenden Slots zeigen auf values.se[j].

(Artikel können mehrere Hauptlemmata haben, die sich in je unterschiedlicher Weise auf ein anderes Lemma beziehen. Insofern kann auch mehr als eine semantische Typisierung pro Bezugslemma vorliegen. Die Arrays sind dann entsprechend länger. Vgl. die je unterschiedliche Bezugname der Lemmata Großbürger/Kleinbürger auf Bourgeois.)

tf Array Themenfelder (gefüllt mit Indizes)
Die Indizes i zeigen auf values.tf[i].
wa Number Wortfeldartikel
1 = Dieser Artikel ist ein Wortfeldartikel.
0 = Dieser Artikel ist kein Wortfeldartikel.
clusters Object Verweiscluster
[Themenfeld] Array Cluster zu einem Themenfeld

Jedes Cluster besteht aus drei Objects, den Clusterkreisen: z (Zentrum), s (Saum) und u (Umfeld). Ist einer der Clusterkreise leer, hat er den Typ Array; z ist niemals leer. Die Nummer n, die Teil des Schlüssels ist und der ein _ voransteht, ist ein Index, der auf values.le[n] verweist. Er steht also für das Lemma. Jeder Schlüssel hat einen Wert vom Typ Number (Integer oder Float), der für die Gewichtung des Lemmas im jeweiligen Clusterkreis steht. Die Lemmata sind bereits nach ihrer Gewichtung sortiert.

In der Artikelübersicht finden Sie eine knappe, allgemein verständliche Erläuterung zu den Clustern.

Eine detaillierte Beschreibung der Konstruktionsprinzipien bietet Nico Dorn: An Automated Cluster Constructor for a Narrated Dictionary (PDF).

z Object Zentrum
[_n] Number Lemma und Gewichtung
Die Nummer n im Schlüssel zeigt auf das Lemma in values.le[n]. Der Wert gibt die Gewichtung des Lemmas an. Diese Struktur ist in allen Clusterkreisen identisch.
s Object Saum
... Number s. o.
u Object Umfeld
... Number s. o.
values Object ausgeschriebene Werte
au Array Autorinnen und Autoren
ds Array diasystematische Angaben (gefüllt mit Objekten)
[Kategorie] Array Kategorie (gefüllt mit Werten)
Das Array der Kategorie Sachgebiet kann z. B. die Werte Biologie, Medizin usw. enthalten.
eb Array Jahre der frühesten Belege
le Array Lemmata
Manche Lemmata haben mehrere Schreibungen, die durch / voneinander getrennt sind.
nl Object Nebenlemmata
Die Schlüssel n sind nummerisch und korrespondieren mit values.le[n], bezeichnen also das Lemma. Der Wert steht für ein @xml:id in der jeweiligen XML-Datei. Er verknüpft das Nebenlemma also mit einer bestimmten Position im Artikel. Gibt es in values.nl keinen Schlüssel, der dem Index i aus values.le[i] entspricht, handelt es sich bei dem Lemma in values.le um ein Hauptlemma.
on Array Publikationsdaten
se Array semantische Typen
tf Array Themenfelder
wf Object Wortfelder
[Themenfeld] Object  
[Name] Array Bezeichnung des Wortfelds (gefüllt mit Indizes)
Die Indizes i verweisen auf values.le[i], stehen also für die Lemmata, die zu einem Feld gehören.

Registerdaten (JSON)

Die Datendatei enthält Registerwörter (mitbehandelte Wörter und Wortverbindungen), die in den Artikeln systematisch aufgeführt, aber nur sehr grundlegend behandelt werden. Deswegen haben sie im Gegensatz zu den Haupt- und Nebenlemmata keinen Lemmastatus.

Die Registerwörter werden in den Artikeln im Bereich Wortinformationen aufgeführt. Allerdings wurde sichergestellt, dass die in die Datendatei aufgenommenen Wörter nicht zugleich WGd-Lemmata (mit eigenem Artikel) sind und definitiv im Fließtext der Wortgeschichte genannt werden, weswegen die Wortlisten nicht einfach aus den XML-Dateien ausgelesen werden können. Vgl. die Erläuterungen zu den Registerwörtern.

tf Object Themenfelder
[Themenfeld] Object Wortliste zum Themenfeld
[Wort] Array Registerwort (gefüllt mit Objects)

Schlüssel und Werte:

id = Integer (Artikel-ID; der Index i zeigt auf id[i])

ty = Integer (Typisierung; der Index i zeigt auf ty[i])

id Array Artikel-IDs
ty Array Typisierungen

Terminologiedaten (JSON)

Die Datendatei enthält den kompletten Text des terminologischen Kerninventars in strukturierter Form. Die Erläuterungstexte sind unter Creative Commons BY-SA 4.0 lizenziert.

Die Datendatei wird beim Aufruf der Wortgeschichten nachgeladen. Findet sich im Autorentext der Wortgeschichte ein Terminus, der auf einen der in der Datendatei aufgeführten regulären Ausdrücke passt, wird der Terminus verlinkt. Auf Klick wird ein Fenster mit einer Kurzfassung der Erläuterung angezeigt (s. z. B. die Auszeichnung von Spezialisierung im Abschnitt Kurz gefasst von Art. Masse).

Termini Object terminologisches Kerninventar
[Terminus] Object 1. Objektform: vollständige Erläuterung
reg String regulärer Ausdruck
Abstrakte Formulierung, welche realisierten Wortformen diese Erläuterung abdeckt.
auch Array alternative Bezeichnungen
ober Array Oberbegriffe
Für die genannten Oberbegriffe gibt es eigene Erläuterungen, die sich unter Termini[ober[i]] finden.
unter Array Unterbegriffe
Für die genannten Unterbegriffe gibt es eigene Erläuterungen, die sich unter Termini[unter[i]] finden.
sauch Array Verweise (siehe auch)
Für die genannten Termini gibt es eigene Erläuterungen, die sich unter Termini[sauch[i]] finden.
autor Array Autorinnen und Autoren
text Array Erläuterungstext (gefüllt mit Objects)
typ String Abschnittstyp
Mögliche Werte: txt-kurz | txt-lang | bsp-kurz | bsp-lang. In den Erläuterungsfenstern der Artikel werden nur die als *-kurz markierten Abschnitte angezeigt. Auf der Übersichtsseite finden sich die Texte aller Abschnitte. bsp-* sind Beispiele, txt-* normaler Fließtext.
html String Textabschnitt (HTML)
lit Array Literaturhinweise (gefüllt mit Objects)
sigle String Sigle
Die Sigle zeigt auf Literatur[sigle], wo der vollständige Literaturtitel zu finden ist.
seite String Seitenangabe (HTML)
[Terminus] Object 2. Objektform: Verweis
reg String regulärer Ausdruck
siehe String Terminus
Die vollständig Erläuterung findet man unter Termini[siehe] (1. Objektorm).
Literatur Object zitierte Literatur
[Sigle] Object Literaturtitel
ppn String Pica-Produktionsnummer (falls bekannt)
titel String Zitierform (HTML)