Zur Erschließung arabischer Periodika aus spätosmanischer Zeit

Herausforderungen einer multilingualen und multiskriptoralen Digital History

Till Grallert

2022-01-26

Zur Erschließung arabischer Periodika aus spätosmanischer Zeit (c.1800–c.1920)
Herausforderungen einer multilingualen und multiskriptoralen Digital History

Till Grallert, @tillgrallert

Digital History – Offenes Forschungskolloquium

26 Januar 2022

Folien: https://tillgrallert.github.io/slides/dh/2022-digital-history-colloquium

Übersicht des Vortrages

  1. Einführung
  2. Mind the <gap/>! Digitalität zwischen Heilsversprechen und Realität
  3. Mind the <gap/>! Linguistic imperialism
  4. Mind the <gap/>! Digitalisierung des Kulturerbes
  5. Versuche einer Digital History
  6. Schlussbemerkungen

1. Einführung

Spätosmanischer östlicher Mittelmeerraum

Figure 1: Die administrative Struktur des Osmanischen Reiches, ca. 1899. AbdurRahman AbdulMoneim, CC BY-SA 4.0, via Wikimedia Commons
  • Norden: Rumelien und Anatolien
    • ab 14. Jhd. osmanisch
  • Süden: Mashriq und Ägypten
    • ab 16. Jhd. osmanisch
  • Modernisierendes Reich
    • Tanzimat: 1838–76
    • Erste konstitutionelle Phase: 1876–78
    • Jungtürkische Revolution: 24. Juli 1908
    • Zweite konstitutionelle Phase: 1908–18
  • Sezessionen, Einfluss europ. Kolonialmächte
    • Muslimisierung
    • Arabisierung

Spätosmanischer östlicher Mittelmeerraum
Ein Raum der Vielfalt

Sprachen

  • Verwaltungssprachen: Osmanisch, Arabisch, Persisch
  • Alltagssprachen: Turksprachen, Arabisch, Griechisch, slawische Sprachen, Armenisch, Ladino …
  • Liturgische Sprachen: Arabisch, Griechisch, Armenisch, Koptisch, Russisch
  • Bildungssprachen: Osmanisch, Arabisch, Französisch, Englisch, Russisch …

Schriften

  • Von rechts nach links:
    • Arabisch, Hebräisch, Assyrisch
  • Von links nach rechts:
    • Griechisch, Armenisch, Lateinisch, Kyrillisch, Koptisch

Religionen

  • Muslime: sunnitisch, schiitisch
  • Christen: div. orthodox, katholisch, assyrisch, uniert, protestantisch
  • Juden: sephardisch, aschkenasisch
  • Zoroastrier

Kalender

  • Islamischer K. (hijri): lunar, beobachet; beginnt mit Muḥammads Flucht aus Mekka
  • Reformierter Julianischer K.: solar; beginnt mit Christi Geburt; Jahresanfang am 1. Januar.
  • Osmanischer Fiskalkalender (mālī): lunosolar; beginnt mit Muḥammads Flucht aus Mekka; Jahresanfang am 1. März.
  • Gregorianischer K.: solar; beginnt mit Christi Geburt; Jahresanfang am 1. Januar.
  • Jüdischer K.: lunar; beginnt mit Erschaffung der Welt.

Tages, Stunden

  • alla turca: Tagesbeginn mit Sonnenuntergang. je 12 Stunden für Nacht und Tag.
  • alle franca: Tagesbeginn um Mitternacht. 24 gleichlange Stunden.

Arabische Zeitungen und Zeitschriften

  • Presse als zentraler Agent des Wandels in der Moderne
    • erstes Massenmedium
    • zentrales Medium der literarischen und kulturellen arabischen Renaissance (nahḍa)
    • Medium des Sprachwandels
    • zentrale Foren für Verhandlung von Moderne, Nationalismen, Islamismus etc.
  • Presse bisher vor allem als Quelle genutzt und kaum als Gegenstand untersucht
  • Forschung wird dominiert von
    • national(istisch)en Narrativen
    • Verengung auf zwei Orte und wenige Titel
    • impliziten Hypothesen
Figure 2: Neu gegründete arabisch-sprachige Periodika, 1799–1929

Arabische Zeitungen und Zeitschriften

Figure 3: Titelseite von al-Quds #331, 10 Januar 1913
  • Grün: Osmanischer Halbmond mit drei Sternen und Slogan der jungtürkischen Revolution von 1908 “Freiheit, Gleichheit, Brüderlichkeit”
  • Blau: Französischer Titel
  • Rot: Datumszeile mit drei Kalendern
    • Reformierter julianischer K.: 28. Dezember 1912
    • Gregorianischer K.: 10 Januar 1913
    • Islamischer K.: 2 Ṣafar 1331
Figure 4: Titelseiten von al-Ḥaqāʾiq, al-Ḥasnāʾ, al-Iqbāl, al-Maḥabba, al-Ahrām, al-Muqtaṭaf und al-ʿAṣr al-Jadīd

Computationelle Periodikastudien

Figure 5: Ungerichtetes Netzwerk der Autor_innen in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas. Farbe der Knoten: betweenness centrality; Größe der Knoten: Anzahl der Periodika; Breite der Kanten: Anzahl der Artikel.
Figure 6: Karte der in Autor_innenzeilen erwähnten Orte in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas

Computationelle Periodikastudien

Figure 7: Gerichtetes Netzwerk der in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas erwähnten Periodika; nach Ausgaben gewichtet. Größe und Farbe der Knoten: in-degree.
Figure 8: Karte der in Autor_innenzeilen erwähnten Orte in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas

Notwendige Datenbasis

Modellierten Volltext mit Auszeichnung von Named Entities

  • z.B. “In ihrer letzten Ausgabe berichtete die Zeitung al-ʿAṣr al-Jadīd aus Damaskus, dass …”
  • (halb)automatische Extraktion basiert auf
    • named entity recognition (NER)
  • Probleme
    • Zustand von OCR und Layout-Erkennung
    • Zustand von NER

Strukturierte bibliographische (Meta)daten auf der Artikelebene

  • z.B. “Sātisnā schickte uns diesen Artikel aus al-Shahbāʾ
  • (halb)automatische Extraktion basiert auf
    • Anwesenheit der Information im materiellen Artefakt
    • einem modellierten digitalen Surrogat
  • Probleme
    • Vielfalt von Namensformen

Normdatensätze

  • Sātisnā
    • Pseudonym und Anagram für Anastās al-Karmilī, den Herausgeber von Lughat al-ʿArab in Bagdad
  • al-Shahbāʾ, “die Graue”
    • ein Beiname von Aleppo
    • Geokoordinaten: 36.20124, 37.16117
  • Probleme
    • enormes Bias auf den Globalen Norden

2. Mind the <gap/>!
Digitalität zwischen Heilsversprechen und Realität

Digitalität zwischen Heilsversprechen und Realität

egalitäres Heilsversprechen

  • jede kann ohne Unterschied teilhaben
  • uneingescheränkter Zugang zum Wissen der Welt

Normative Grundlagen

  • Wissen = Daten = Verständnis
  • mehr Wissen = besseres Verständnis
  • Solutionism/Technokratie
Figure 9: Vannevar Bushs Memex, 1945

Digitalität zwischen Heilsversprechen und Realität

Figure 10: Versuch einen Impftermin online zu buchen

ernüchternde Realtität

  • universale, wenn auch unterschiedliche Ausschlußerfahrungen

Elefant in the room

  • Digitalität wird als voraussetzungslos verstanden

Digitalität als vorausetzungslos?

Metaphermaschinen

  • Digitalität simuliert Stasis und Vertrautheit
    • Metaphern
    • semantische Modelle
  • Digitalität ist hochgradig ephemer und wird kontinuierlich remediiert
Figure 11: Google docs

Mind the <gap/>!
Zugangsvorraussetzungen

… müssen explizit gemacht werden!

technisch

  • Hardware: aktuell
  • Strom: kontinuierlich
  • Internet: schnell und stabil
  • Software

kulturell

  • Sprach- und Schriftkenntnisse
  • Vertrautheit mit den Metaphern
  • Vertrautheit mit semantischen Modellen

Mind the <gap/>!
Zugangsvorraussetzungen

Du bist so schön wie eine zusätzliche Stunde Strom

Mind the <gap/>!
Zwischen Globalem Norden und Globalem Süden

Globaler Norden

  • Hegemon
  • Autor der technischen und kulturellen Standards der Digitalität

Globaler Süden

  • nicht homogen, kein universeller “Anderer”
  • Vielzahl heterogener Regionalitäten
  • gemeinsame Erfahrung der konstanten Auseinandersetzung mit dem Hegemon

Mind the <gap/>!
Digital Humanities als Teil des Globalen Nordens

Globale Verteilung von DH Zentren. Quelle: DH centerNet

3. Mind the <gap/>!
Linguistic imperialism

Linguistic imperialism

‘Linguistic imperialism’ is shorthand for a multitude of activities, ideologies, and structural relationships. Linguistic imperialism takes place within an overarching structure of asymmetrical North/ South relations, where language interlocks with other dimensions, cultural (particularly in education, science, and the media), economic and political

(Phillipson „Realities and Myths of Linguistic Imperialism“ 1997, 239)

The basis for the codes, languages, methodologies, and technical instruments of the digital humanities is English; the written and spoken language of all the main conferences, the most prestigious journals, the institutions that control the discipline, the organizations and international consortia, and the central authorities of knowledge is, with few exceptions, some dialect of British or American English.

(Fiormonte „Taxation Against Overrepresentation?“ 2021, 334–35)

Englischkenntnisse sind unabdingbar

Englisch ist die Lingua Franca und Basis der technischen Infrastruktur

  • Beispiel: CSS
body {
    background: white;
    color: black;
}
  • Beispiel: R
library(tidyverse)
setwd("/path/to/folder/")
load("oape_stats.rda")
المجلات <- c("4770057679", "644997575", "472450345", "792756327")
المشار.اليها <- المشار.اليها %>%
    filter(رقم.فهرس %in% المجلات)
write.table(المشار.اليها, file = "csv/oape_stats.csv", row.names = FALSE, quote = TRUE, sep = ",")

Schriften und Sprachen des Globalen Nordens sind der Hegemon der Interfaces

Figure 12: Translatio Bonn: Englisches Interface (gelb), Arabisch in deutscher Umschrift (lila), Deutsch (grün).

Arabisch

Schrift

  • zweithäufigste Schrift
    • aktuell für 14 Sprachen verwendet, u.a. Arabisch, Persisch, Urdu, Pashtu.

Sprache

  • fünfthäufigste Sprache
    • eine von sechs Amtssprachen der UN
    • Amtssprache in 26 Ländern
    • >420 Mio. Sprechende
  • liturgische Sprache des Islams mit 1,6 Mrd. Gläubigen
Figure 13: Beispiel: (Zakham „Amīrkā wa-ʿulamāʾ al-ʿArab“ 1907)

Arabisch

Schrift

  • Schriftrichtung von rechts nach links
  • Buchstaben (Grapheme) werden mehrheitlich in Schreibrichtung verbunden und ändern dabei ihre Form (Allographen): ج جـ ـجـ ـج
  • Grapheme bestehen aus Basisformen (Archigraphem, rasm) und diakritischen Zeichen (iʿjām)
    • Gebrauch unterliegt historischem Wandel und regionalen Präferenzen
  • Vokalisierung (tashkīl) kann hinzugefügt werden und hat Einfluss auf Bedeutung

أميركا وعلماء العرب

كانت أميركا مجهولة عند ابنآء القرن الخامس عشر بدليل ان المؤرخين في ذلك العهد لم يذكروا عنها سوى اخبار اكتشافها في أواخر ذلك القرن

(Zakham „Amīrkā wa-ʿulamāʾ al-ʿArab“ 1907)

امىرکا وعلماء العرٮ

کاںٮ امىرکا محهوله عںد اٮںا الٯرں الحامس عسر ٮدلىل اں المورحىں ڡى دلک العهد لم ىدکروا عںها سوى احٮار اکٮساڡها ڡى اواحر دلک الٯرں

rasm

Arabisch in der Digitalität

Zum großen Teil nicht unterstützt

  • Zeichenkodierung lange Zeit nicht unterstützt
    • Latinisierte Umschriften
      • Arabisch: تصوير الافكار -> taṣwīr al-afkār (IJMES)
      • Osmanisch: تصوير افكار -> teṣvīr-i efkār (IJMES)
    • “gelehrte” Umschrift vs Praxis des Arabisi
  • Allographen (Verbindungsformen) werden der Rendering Engine überlassen
    • Microsoft Office for Mac: 2015
    • ggplot(Plots in R): 2021
    • Gephi: 2020
  • OCR ist nicht funktional*

أميركا وعلماء العرب

كانت أميركا مجهولة عند ابنآء القرن الخامس عشر بدليل ان المؤرخين في ذلك العهد لم يذكروا عنها سوى اخبار اكتشافها في أواخر ذلك القرن

(Zakham „Amīrkā wa-ʿulamāʾ al-ʿArab“ 1907)

Amīrkā wa ʿulamāʾ al-ʿarab

Kānat Amīrkā majhūla ʿinda abnāʾ al-qarn al-khāmis ʿashr bi-dalīl anna al-muʾarikhīn fī dhalika al-ʿahd lam yadhkarū ʿanhā siwā akhbār iktishāfihā fī awākhir dhalika al-qarn

Umschrift (IJMES)

Erfassung
Grapheme und Zeichenkodierung

Unicode ist nicht die Lösung aller Probleme

  • Unicode: Industriekonsortium und ein Standard
  • Idee: Trennung von Bedeutung und Form
  • Probleme:
    • Kodierungen folgen Sprachen, nicht Schriften
    • inkonsistent
  • OS, Browser etc. normalisieren die Varianz nicht.
  • Folge: Volltextsuchen sind nicht aussagekräftig
    • 32 Arten “mekkanisch” (مكية) zu schreiben
Figure 14: Browsersuche nach “مك” im Wikidataeintrag für Mekka (Q5806)

Darstellung
basale Standards werden nicht unterstützt

Beispiel 1: Werbung (Grafik- und Layout Programme)

Figure 15: “Arabische” Werbung Abstand zu halten um sich und andere vor Covid-19 zu schützen, Washentaw County, Health Department. Quelle: Twitter
Figure 16: Korrigierte Fassung nachdem Twitternutzer_innen auf die Fehler hinwiesen. Quelle: Twitter

Darstellung
basale Standards werden nicht unterstützt

Beispiel 2: Webbrowser und HTML 5

Browser ignorieren das HTML5 Attribut @lang und stellen Arabisch linksbündig dar

Figure 17: Chrome
Figure 18: Firefox

Darstellung
Arabische Inhalte in LTR-Standards

Figure 19: Bidirektionales XML vom Anfang von (Dammūs „Ṣiḥāfat Sūriyya wa-Lubnān“ 1911). Die farbigen Pfeile zeigen die Leserichtung an. Die Zahlen unter den Pfeilen zeigen die Lesesequenz an.

4. Mind the <gap/>!
Digitalisierung des Kulturerbes

Digitalisierung des Kulturerbes
neo-koloniale Unsichtbarkeit des Globalen Südens

Erfassung

Digitalisierung ist teuer: public-private partnerships, private vendors

  • Findet primär im Globalen Norden statt
  • Kuratorische Entscheidungen
    • Sammlung
    • Katalogisierung
    • Digitalisierung
  • Technische Entscheidungen
    • Workflows, Modelle, Ontologien des Nordens
  • Wirtschaftliche Entscheidungen
    • Outsourcing

Bereitsstellung

Platformen zur Maximierung des Gewinns

  • Proprietäre Interfaces
  • Datensilos ohne APIs
  • Bezahlschranken
  • geo-fencing

Digitalisierung des Kulturerbes
Katalogisierung

  • Digitale Kataloge sind digitalisierte Kataloge
  • Katalogisierungsregeln sind historisch kontingent
    • nutzen lateinische Umschriften (plural!!)
    • unterscheiden nicht konsequent zwischen Schrift und Sprache
    • Kalender sind häufig falsch
  • Kataloge sind lokal, Aggregierung zumeist auf nationaler Basis
  • Nutzung zumeist über Webinterfaces
    • Worldcat und Arabic Union Catalogue (ArUC) haben keine kostenlose API

Digitalisierung des Kulturerbes
Katalogisierung

Suche in der ansonsten großartigen ZDB

  • kein Arabisch
ZDB Suche nach “الجنة”
  • keine volle Umschrift (dmg al-Ǧanna, ijmes al-Janna)
ZDB Suche nach “al-Ǧanna”
  • defektive Umschrift ohne “al-”
  • Umfang der Normalisierung unklar (ʿ wird komplet herausgefiltert, ' und ʾ nicht)
ZDB Suche nach “Ganna”

Digitalisierung des Kulturerbes
Was können wir überhaupt sehen?

Welche Verzerrungen bildet die Karte ab: Sammlung, Katalogiesierung, Digitalisierung der Wissensinfrastruktur?

Figure 20: Karte von in Worldcat und ArUC erfassten Beständen der Zeitschrift al-Muqtabas

Closing the knowledge <gap/>
Project Jarāʾid (2012–)

  • Bibliographische Erfassung sämtlicher arabisch-sprachiger Periodika weltweit seit ihrer Entstehung um 1800 bis 1929.
    • Webseite und offene Datensätze (TEI XML) für mehr als 3700 Periodika
    • Normdatensätze für c.2700 Personen, 220 Orte, 180 Bibliotheken u.ä.
  • Kollaboration mit Adam Mestyan (Duke), “Crowd”-Sourcing
  • Seit 2021/22: Integration von Bibliothekskatalogen, ZDB, HathiTrust
Figure 21: In Project Jarāʾid erfasste Periodika. Größe der Kreise korrespondiert mit Anzahl der Periodikatitel. Farben zeigen den Status an: bekannte Sammlung (grün), davon digitalisiert (blau), Rest (rot).

Project Jarāʾid
Mind the <gap/>!

Wissenslücke -> Digitalisierungslücke

Arabische Periodika bis 1929 weltweit

  • Arabisch: 420 Mio Sprechende
  • 3269 Zeitungen und Zeitschriften
  • davon knapp 1/4 (747) in Sammlungen lokalisiert
  • davon wiederum knapp 1/5 (145) digitalisiert
  • Bezahlschranken, geo-fencing

Zum Vergleich: “Der Erste Weltkrieg im Spiegel hessischer Regionalzeitungen

  • Hessen: 6,2 Mio. Einwohner_innen
  • 125 Zeitungen mit mehr als ½ Mio. Seiten
  • Digitalisat: Faksimile und Volltext
  • Offen zugänglich

Digitalisierung des Kulturerbes
Copyrightregime, Bezahlschranken und Geo-fencing

Katalogisierungsregeln und algorithmische Copyrightbestimmung verstärken Unzugänglichkeiten

Figure 22: al-Muqtabas 6 auf HathiTrust (Original in Princeton) außerhalb der USA
Figure 23: al-Muqtabas 6 auf HathiTrust mit US IP

Digitalisierung des Kulturerbes
Klassisches / kommerzielles OCR

  • basiert auf Segmentierung in Buchstaben
Figure 24: Evaluierung von OCR Software für Arabisch, (Alghamdi und Teahan „Experimental evaluation of Arabic OCR systems“ 2017, table IV)

Digitalisierung des Kulturerbes
Die resultierenden Textschichten

  • Anbieter halten Algorithmen und Evaluierung unter Verschluss: unbekannte Anzahl von false negatives
  • Keine Strukturierung, keine APIs, proprietäre Interfaces
al-Muqtabas 6 on HathiTrust, Qualität der OCR-Schicht (nur mit US IP zugänglich)
al-Bashīr 9 Jan. 1880 (#487), p.1 on GPA, Qualität der OCR-Schicht

Closing the tool <gap/>
OCR/HTR für arabische Periodika (2019–)

State of the art

  • Maschinelles Lernen ohne Segmentierung in Buchstaben
    • Tesseract, Kraken / Ocropus, Transkribus
  • Es gibt gut finanzierte Projekte zu arabischen Schriften
    • OpenITI (Mellon, ECR, Harvard)
  • Probleme
    • Projekte halten ihre Modelle und Infrastrukturen mehrheitlich unter Verschluss
    • keine GUI
    • GUI sind nicht auf Arabisch ausgelegt
    • teuer: Rechenzeit, Upload von 100.000den Bildern

Unser Experiment

  • Kollaboration mit Sinai Rusinek (Haifa)
  • Ansatz:
    • Maschinelles Lernen ohne Segmentierung in Buchstaben
  • Software: Transkribus, Tesseract 4
  • Probleme:
    • Benötigt vielfältige Ground Truth
    • Komplexes Layout von Periodikaseiten
    • Software nimmt Links-nach-rechts als Leserichtung an

OCR/HTR für arabische Periodika

Ergebnisse mit Transkribus

ID based on ground truth words lines epochs CER train CER validation
15946 al-Ustādh 192829 18732 200 2.01 2.09
13864 al-Muqtabas 11116 1013 200 0.07 8.40

Closing the infrastructural <gap/>
Open Arabic Periodical Editions (OpenArabicPE, 2015–)

Ansatz

  • Verbindung vorhandener Faksimiles und Transkriptionen in einem standardkonformen, offenen Format
  • Scraping, Erzeugung, Validierung und Teilen von offenen bibliographischen Metadaten

Ziele

  • Validierung und Nutzbarmachung vorhandener Transkriptionen
  • Aufbau einer offenen Infrastruktur von Modellen, Workflows, Normdatensätzen
  • Unter den Bedingungen des Globalen Südens

Prinzipien

  • Etablierte Werkzeuge und Technologien
  • wenige, offene und einfache Formate und Werkzeuge
  • kostenfreie Platformen ohne lock-in

OpenArabicPE

Infrastruktur

  1. Digitale Editionen, Normdatensätze: TEI XML.
  2. Offene Lizenzen: CC BY-SA 4.0 (TEI, MODS, BibTeX), MIT license (XSLT, XQuery)
  3. Soziale digitale Editionen, die auf GitHub gehostet sind:
  4. Archivierung auf Zenodo: DOI für dauerhafte Referenzierbarkeit
  5. Statische Webansichten: Parallele Darstellung von Text und Faksimile.
  6. Bibliographische Metadaten sind als öffentliche Zotero-Gruppe gehostet

OpenArabicPE

Korpus

Periodikum DOI Bände Ausgaben Artikel Wörter
al-Ḥaqāʾiq 10.5281/zenodo.1232016 3 35 389 298090
al-Ḥasnāʾ 10.5281/zenodo.3556246 1 12 201 NA
al-Manār 35 537 4300 6144593
al-Muqtabas 10.5281/zenodo.597319 9 96 2964 1981081
al-Ustādh 10.5281/zenodo.3581028 1 42 435 221447
al-Zuhūr 10.5281/zenodo.3580606 4 39 436 292333
Lughat al-ʿArab 10.5281/zenodo.3514384 3 34 939 373832
total 56 795 9664 9311376

5. Versuche einer Digital History

SIHAFA

Ziele:

  • systematische Erforschung der spätosmanischen arabischen Presse at scale
  • Entwicklung/Evaluation von digitalen Methoden
  • Hinterfragung etablierter Forschungsnarrative
  • Etablierung von “Arab Periodical Studies”

Fragen

  • Wer sind die zentralen Akteure (Personen, Periodika) in diesem diskursiven Feld?
  • Wie sind Periodika produziert worden? Wie ist Autorenschaft zu denken?
  • Welche Rolle spielt text reuse? Wie reisten Texte, Themen, Genres?
  • Wie hat sich die Sprache der Moderne im multilingualen, imperialen Raum etabliert?

Methoden

  • Netzwerkanalyse
  • stilometrische Autorenschaftbestimmung
  • historische GIS
  • Layoutanalyse
  • Topic modelling
  • Word embeddings

1. Historisches GIS: Typologie der Periodika

Hypothese: geographische Herkunft von Artikeln in einem Periodikum erlaubt Rückschlüsse über seine Bedeutung

trans-regional

Figure 26: Karte der in den Autorenzeilen erwähnten Orte für al-Muqtabas (Kairo und Damaskus)

regional

Figure 27: Karte der in den Autorenzeilen erwähnten Orte für al-Ḥasnāʾ (Beirut)

lokal

Figure 28: Karte der in den Autorenzeilen erwähnten Orte für al-Ḥaqāʾiq (Damaskus)

Historisches GIS

Voraussetzungen: Daten

  • Erste Quellen: OpenArabicPE
  • Auszeichnung von Orten im modellierten Volltext
    • Autor_innenzeilen
    • Rezensionen
    • Probleme: kein funktionales arabisches NER
  • Normdatensätze für die Disambiguierung und Anreicherung von Daten
    • Georeferenzierte Orte
    • Probleme: Mangel an historischen Ortsverzeichnissen (gazetteer)
  • Autor_innenzeile: Maryam Zakā aus Saida
 <byline>
    <placeName ref="oape:place:9 geon:268064">صيدا</placeName>
    <persName ref="oape:pers:2845">مريم زكا</persName>
</byline>
  • Gazetteer-Eintrag für Saida
<place type="town" xml:id="place_9">
    <placeName type="simple">Saida</placeName>
    <placeName xml:lang="ar-Latn-x-ijmes">Ṣaydā</placeName>
    <placeName xml:lang="en">Sidon</placeName>
    <placeName xml:lang="ar">صيدا</placeName>
    <location>
        <geo>33.55751, 35.37148</geo>
    </location>
    <idno type="url">http://en.wikipedia.org/wiki/Sidon</idno>
    <idno type="geon">268064</idno>
    <idno type="oape">9</idno>
</place>

2. Netzwerkanalyse: erwähnte Periodika

Figure 29: Gerichtetes Netzwerk der in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas erwähnten Periodika; nach Ausgaben gewichtet. Größe und Farbe der Knoten: in-degree.

Ziel

  • empirische Überprüfung von Hypothesen
  • Entscheidungshilfe für Digitalisierung

Erste Ergebnisse

  • hauptsächlich selbstreferentiell
  • Typologie: Grad der Weltzugewandtheit
  • Kernnetzwerk:
    • Überraschende Mitglieder
    • Hochgradig geographisch konzentriert

Netzwerkanalyse: erwähnte Periodika

Voraussetzungen: Daten

  • Erste Quellen: OpenArabicPE, Project Jarāʾid, OCR
  • Auszeichnung aller Erwähnungen von Periodika im modellierten Volltext
    • semi-automatisch (regex): folgt dem Muster “Zeitung ABC”, “Zeitschrift DEF”
    • Probleme: kein funktionales arabisches NER
  • Normdatensätze für die Disambiguierung und Anreicherung von Daten
    • Bibliographie
    • Probleme: geringe Quote in vorhandenen Normdatensätzen
  • Das Magazin al-Zuhūr aus Kairo
والأصح الدرعية بلام التعريف (راجع <bibl subtype="journal" type="periodical">مجلة <title level="j" ref="oape:bibl:3 oclc:1034545644">الزهور</title> المصرية  <biblScope unit="volume" from="2" to="2">٢</biblScope> :  <biblScope unit="page" from="292">٢٩٢</biblScope></bibl>)
  • Die Zeitung al-Zuhūr aus Baghdad
وانتخب <persName>فؤاد أفندي الدفتري البغدادي</persName> و<bibl><editor><persName>نوري أفندي</persName></editor> راس كتاب <textLang otherLangs="ota">القسم التركي</textLang> في <bibl type="periodical" subtype="newspaper">جريدة <title ref="oape:bibl:532">الزهور</title></bibl> البغدادية</bibl> نائبين عن <placeName ref="oape:place:372 geon:94824">كربلاء</placeName>.

2. Netzwerkanalyse: Autor_innen

Figure 30: Ungerichtetes Netzwerk der Autor_innen in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas. Farbe der Knoten: betweenness centrality; Größe der Knoten: Anzahl der Periodika; Breite der Kanten: Anzahl der Artikel.

Ziel

  • empirische überprüfung von Hypothesen
  • Forschungsleitend für close reading

Erste Ergebnisse

  • Sehr begrenzte Überschneidung zwischen Periodika aus der gleichen Stadt
  • Kernnetzwerk:
    • praktisch nicht in der Forschung abgebildet
    • Überraschende Zusammensetzung: viele Iraker (6), wenige Syrer (2), wenige Christen (2)

Netzwerkanalyse: Autor_innen

Voraussetzungen: Daten

  • Erste Quellen: OpenArabicPE, Project Jarāʾid
  • Strukturierte bibliographische Daten
    • semi-automatisch auf Basis der Editionen
    • manuelle Erfassung
    • Probleme: viele Abkürzungen, vielfältige Namensformen
  • Normdatensätze für die Disambiguierung und Anreicherung von Daten
    • Lebensdaten
    • Werke in Bibliothekskatalogen
    • Probleme: geringe Quote in vorhandenen Normdatensätzen
  • Personographie-Eintrag für Père Anastase-Marie de Saint-Elie (Normdatensatz), der sich in den Quellen vornehmlich als Sātisnā findet.
<person>
    <persName><roleName type="pseudonym">ساتسنا</roleName></persName>
    <persName><roleName type="pseudonym">أمكح</roleName></persName>
    <persName><roleName type="pseudonym">فهر الجابري</roleName></persName>
    <persName><roleName type="rank">الأب</roleName> <forename>أنستاس</forename> <forename>ماري</forename> <surname><addName type="nisbah">الكرملي</addName></surname></persName>
    <persName><forename>أنستاس</forename> <forename>ماري</forename> <addName type="nisbah">الألياوي</addName> <surname><addName type="nisbah">الكرملي</addName></surname></persName>
    <persName><forename>بطرس</forename> <addName type="nasab">بن <forename>جبرائيل</forename></addName> <forename>يوسف</forename> <surname>عواد</surname></persName>
    <idno type="VIAF">39370998</idno>
    <idno type="oape">227</idno>
    <idno type="wiki">Q4751824</idno>
    <birth><date source="viaf" when="1866-08-05">1866-08-05</date> in <placeName ref="oape:place:216 geon:98182">Baghdad</placeName></birth>
    <death><date source="viaf" when="1947-01-07">1947-01-07</date> in <placeName ref="oape:place:216 geon:98182">Baghdad</placeName></death>
</person>

Problem: Das Netzwerk der Autor_innen umfasst nur 17% aller Artikel

Forschungsstand

  • Die Frage der Autorenschaftsbestimmung ist weitgehend ignoriert worden
  • Implizite und häufig angenommene Hypothese: die Herausgeber_innen haben alle anonymen Artikel selbst geschrieben

Probleme

  • Hypothese ist nicht überprüft
  • Wir kennen gar nicht die Namen aller potentiellen Kandidat_innen
  • Es ist sehr unwahrscheinlich, dass alles von einer Person verfasst wurde

3. Stilometrie zur Autorenschaftsbestimmung

  • komparative Methode:
    • Vergleich stylistischer Merkmale (most frequent words MFWs) liefert ein nummerisches Abstandsmaß (Verschiedenheit)
    • Selbstvalidierung: Abstimmung der Ergebnisse mehrerer Iterationen mit verschiedenen Anzahlen von MFWs
  • Ist bis jetzt nicht auf arabische Texte angewendet worden
  • Herausvorderungen:
    • abhängig von der Zusammensetzung des Korpus
    • Texte müssen eine Mindestlänge haben
Figure 31: PCA Kovarianzmatrix für die 100 MFWs in einem Korpus von 165 Ausgaben von al-Ḥaqāʾiq, Lughat al-ʿArab und al-Muqtabas
  • Lughat al-ʿArab and al-Muqtabas are indistinguishable
  • al-Ḥaqāʾiq is different
  • some issues of al-Muqtabas are very different
Figure 32: PCA Kovarianzmatrix für die 100 MFWs in einem Korpus von 165 Ausgaben von al-Ḥaqāʾiq, Lughat al-ʿArab und al-Muqtabas

Stilometrie: erste Experimente

Falsifizierung der Hypothese

Figure 33: Figure: bootstrap consensus network von Artikeln in al-Muqtabas (Länge >= 5000 Wörter, 100–1000 MFWs). Farbe: modularity group
  • Stilometrie funktioniert für arabische Periodika
  • Signale für
    • Autorenschaft
    • Herausgeberschaft
    • Übersetzung
  • Zusätzliches (Sub)-signal
    • Genre

6. Schlußbemerkungen
Mind the <gap/>!

Mind the <gap/>!

  • bei Forschung/Lehre zu Digitalität
  • bei digitaler Forschung/Lehre
  • beim Aufbau von Infrastrukturen
  • beim Forschungsdatenmanagement
Graffiti “Du bist so schön, wie eine zusätzliche Stunde Strom”, Gaza. Quelle: Twitter

Danke!

  • Beiträger_innen zu Project Jarāʾid: Hala Auji, Philippe Chevrant, Marina Demetriadou, Lamia Eid, Stacy Fahrenthold, Ulrike Freitag, Rana Issa, Nicole Khayat, Peter Magierski, Leyla von Mende, Adam Mestyan, Christian Meier, Daniel Newman, Geoffrey Roper, Sinai Rusinek, Philip Sadgrove, Ola Seif, and Rogier Visser

  • Beiträger_innen zu OpenArabicPE: Jasper Bernhofer, Dimitar Dragnev, Patrick Funk, Talha Güzel, Hans Magne Jaatun, Jakob Koppermann, Xaver Kretzschmar, Daniel Lloyd, Klara Mayer, Tobias Sick, Manzi Tanna-Händel, and Layla Youssef

  • Beiträger_innen zu OCR: Adam Mestyan, Sinai Rusinek

  • Links:

  • Licence: slides and plots are licenced as CC BY-SA 4.0

Literatur

Alghamdi, Mansoor, und William Teahan. 2017. „Experimental evaluation of Arabic OCR systems“. PSU Research Review 1 (3): 229–41. https://doi.org/gh4457.
Dammūs, Ḥalīm Ibrāhīm. 1911. „Ṣiḥāfat Sūriyya wa-Lubnān“ [The Press of Syria and Lebanon]. al-Zuhūr 2 (4), 1. Juni 1911. https://openarabicpe.github.io/journal_al-zuhur/tei/oclc_1034545644-i_15.TEIP5.xml#div_1.d2e634.
Fiormonte, Domenico. 2021. „Taxation Against Overrepresentation? The Consequences of Monolingualism for Digital Humanities“. In Alternative Historiographies of the Digital Humanities, herausgegeben von Dorothy Kim und Adeline Koh, 333–76. Earth: punctum books. https://doi.org/10.53288/0274.1.00.
Grallert, Till. 2021. „Catch Me If You Can! Approaching the Arabic Press of the Late Ottoman Eastern Mediterranean Through Digital History“. Herausgegeben von Simone Lässig. Geschichte Und Gesellschaft 47 (1, Digital History): 58–89. https://doi.org/gkhrjr.
———. 2022. „Open Arabic Periodical Editions: A Framework for Bootstrapped Scholarly Editions Outside the Global North“. Herausgegeben von Roopika Risam und Alex Gil. Digital Humanities Quarterly 16 (2, "Minimal Computing"). http://digitalhumanities.org/dhq/vol/16/2/000593/000593.html.
Phillipson, Robert. 1997. „Realities and Myths of Linguistic Imperialism“. Journal of Multilingual and Multicultural Development 18 (3): 238–48. https://doi.org/db3cnb.
Zakham, Yūsuf. 1907. „Amīrkā wa-ʿulamāʾ al-ʿArab“ [America and Arab Scholars]. al-Muqtabas 2 (1), 14. Februar 1907. https://OpenArabicPE.github.io/journal_al-muqtabas/tei/oclc_4770057679-i_13.TEIP5.xml#div_8.d1e1249.