Zur Erschließung arabischer Periodika aus spätosmanischer Zeit

Herausforderungen einer multilingualen und multiskriptoralen Digital History

Till Grallert

2022-01-26

Zur Erschließung arabischer Periodika aus spätosmanischer Zeit (c.1800–c.1920)
Herausforderungen einer multilingualen und multiskriptoralen Digital History

Till Grallert, @tillgrallert

Digital History – Offenes Forschungskolloquium

26 Januar 2022

Folien: https://tillgrallert.github.io/slides/dh/2022-digital-history-colloquium

Übersicht des Vortrages

Einführung
Mind the <gap/>! Digitalität zwischen Heilsversprechen und Realität
Mind the <gap/>! Linguistic imperialism
Mind the <gap/>! Digitalisierung des Kulturerbes
Versuche einer Digital History
Schlussbemerkungen

1. Einführung

Spätosmanischer östlicher Mittelmeerraum

Norden: Rumelien und Anatolien
- ab 14. Jhd. osmanisch
Süden: Mashriq und Ägypten
- ab 16. Jhd. osmanisch
Modernisierendes Reich
- Tanzimat: 1838–76
- Erste konstitutionelle Phase: 1876–78
- Jungtürkische Revolution: 24. Juli 1908
- Zweite konstitutionelle Phase: 1908–18
Sezessionen, Einfluss europ. Kolonialmächte
- Muslimisierung
- Arabisierung

Spätosmanischer östlicher Mittelmeerraum
Ein Raum der Vielfalt

Sprachen

Verwaltungssprachen: Osmanisch, Arabisch, Persisch
Alltagssprachen: Turksprachen, Arabisch, Griechisch, slawische Sprachen, Armenisch, Ladino …
Liturgische Sprachen: Arabisch, Griechisch, Armenisch, Koptisch, Russisch
Bildungssprachen: Osmanisch, Arabisch, Französisch, Englisch, Russisch …

Schriften

Von rechts nach links:
- Arabisch, Hebräisch, Assyrisch
Von links nach rechts:
- Griechisch, Armenisch, Lateinisch, Kyrillisch, Koptisch

Religionen

Muslime: sunnitisch, schiitisch
Christen: div. orthodox, katholisch, assyrisch, uniert, protestantisch
Juden: sephardisch, aschkenasisch
Zoroastrier

Kalender

Islamischer K. (hijri): lunar, beobachet; beginnt mit Muḥammads Flucht aus Mekka
Reformierter Julianischer K.: solar; beginnt mit Christi Geburt; Jahresanfang am 1. Januar.
Osmanischer Fiskalkalender (mālī): lunosolar; beginnt mit Muḥammads Flucht aus Mekka; Jahresanfang am 1. März.
Gregorianischer K.: solar; beginnt mit Christi Geburt; Jahresanfang am 1. Januar.
Jüdischer K.: lunar; beginnt mit Erschaffung der Welt.

Tages, Stunden

alla turca: Tagesbeginn mit Sonnenuntergang. je 12 Stunden für Nacht und Tag.
alle franca: Tagesbeginn um Mitternacht. 24 gleichlange Stunden.

Arabische Zeitungen und Zeitschriften

Presse als zentraler Agent des Wandels in der Moderne
- erstes Massenmedium
- zentrales Medium der literarischen und kulturellen arabischen Renaissance (nahḍa)
- Medium des Sprachwandels
- zentrale Foren für Verhandlung von Moderne, Nationalismen, Islamismus etc.

Presse bisher vor allem als Quelle genutzt und kaum als Gegenstand untersucht
Forschung wird dominiert von
- national(istisch)en Narrativen
- Verengung auf zwei Orte und wenige Titel
- impliziten Hypothesen

Figure 2: Neu gegründete arabisch-sprachige Periodika, 1799–1929

Arabische Zeitungen und Zeitschriften

Figure 3: Titelseite von al-Quds #331, 10 Januar 1913 — Figure 3: Titelseite von *al-Quds* #331, 10 Januar 1913

Grün: Osmanischer Halbmond mit drei Sternen und Slogan der jungtürkischen Revolution von 1908 “Freiheit, Gleichheit, Brüderlichkeit”
Blau: Französischer Titel
Rot: Datumszeile mit drei Kalendern
- Reformierter julianischer K.: 28. Dezember 1912
- Gregorianischer K.: 10 Januar 1913
- Islamischer K.: 2 Ṣafar 1331

Figure 4: Titelseiten von al-Ḥaqāʾiq, al-Ḥasnāʾ, al-Iqbāl, al-Maḥabba, al-Ahrām, al-Muqtaṭaf und al-ʿAṣr al-Jadīd — Figure 4: Titelseiten von *al-Ḥaqāʾiq*, *al-Ḥasnāʾ*, *al-Iqbāl*, *al-Maḥabba*, *al-Ahrām*, *al-Muqtaṭaf* und *al-ʿAṣr al-Jadīd*

Computationelle Periodikastudien

Figure 5: Ungerichtetes Netzwerk der Autor_innen in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas. Farbe der Knoten: betweenness centrality; Größe der Knoten: Anzahl der Periodika; Breite der Kanten: Anzahl der Artikel. — Figure 5: Ungerichtetes Netzwerk der Autor_innen in *al-Ḥaqāʾiq*, *al-Ḥasnāʾ*, *Lughat al-ʿArab* und *al-Muqtabas*. Farbe der Knoten: betweenness centrality; Größe der Knoten: Anzahl der Periodika; Breite der Kanten: Anzahl der Artikel.

Figure 6: Karte der in Autor_innenzeilen erwähnten Orte in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas — Figure 6: Karte der in Autor_innenzeilen erwähnten Orte in *al-Ḥaqāʾiq*, *al-Ḥasnāʾ*, *Lughat al-ʿArab* und *al-Muqtabas*

Computationelle Periodikastudien

Figure 7: Gerichtetes Netzwerk der in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas erwähnten Periodika; nach Ausgaben gewichtet. Größe und Farbe der Knoten: in-degree. — Figure 7: Gerichtetes Netzwerk der in *al-Ḥaqāʾiq*, *al-Ḥasnāʾ*, *Lughat al-ʿArab* und *al-Muqtabas* erwähnten Periodika; nach Ausgaben gewichtet. Größe und Farbe der Knoten: in-degree.

Figure 8: Karte der in Autor_innenzeilen erwähnten Orte in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas — Figure 8: Karte der in Autor_innenzeilen erwähnten Orte in *al-Ḥaqāʾiq*, *al-Ḥasnāʾ*, *Lughat al-ʿArab* und *al-Muqtabas*

Notwendige Datenbasis

Modellierten Volltext mit Auszeichnung von Named Entities

z.B. “In ihrer letzten Ausgabe berichtete die Zeitung al-ʿAṣr al-Jadīd aus Damaskus, dass …”
(halb)automatische Extraktion basiert auf
- named entity recognition (NER)
Probleme
- Zustand von OCR und Layout-Erkennung
- Zustand von NER

Strukturierte bibliographische (Meta)daten auf der Artikelebene

z.B. “Sātisnā schickte uns diesen Artikel aus al-Shahbāʾ”
(halb)automatische Extraktion basiert auf
- Anwesenheit der Information im materiellen Artefakt
- einem modellierten digitalen Surrogat
Probleme
- Vielfalt von Namensformen

Normdatensätze

Sātisnā
- Pseudonym und Anagram für Anastās al-Karmilī, den Herausgeber von Lughat al-ʿArab in Bagdad
al-Shahbāʾ, “die Graue”
- ein Beiname von Aleppo
- Geokoordinaten: 36.20124, 37.16117
Probleme
- enormes Bias auf den Globalen Norden

2. Mind the `<gap/>`!
Digitalität zwischen Heilsversprechen und Realität

Digitalität zwischen Heilsversprechen und Realität

egalitäres Heilsversprechen

jede kann ohne Unterschied teilhaben
uneingescheränkter Zugang zum Wissen der Welt

Normative Grundlagen

Wissen = Daten = Verständnis
mehr Wissen = besseres Verständnis
Solutionism/Technokratie

Figure 9: Vannevar Bushs Memex, 1945 — Figure 9: Vannevar Bushs *Memex*, 1945

Digitalität zwischen Heilsversprechen und Realität

Figure 10: Versuch einen Impftermin online zu buchen

ernüchternde Realtität

universale, wenn auch unterschiedliche Ausschlußerfahrungen

Elefant in the room

Digitalität wird als voraussetzungslos verstanden

Digitalität als vorausetzungslos?

Metaphermaschinen

Digitalität simuliert Stasis und Vertrautheit
- Metaphern
- semantische Modelle
Digitalität ist hochgradig ephemer und wird kontinuierlich remediiert

Mind the `<gap/>`!
Zugangsvorraussetzungen

… müssen explizit gemacht werden!

technisch

Hardware: aktuell
Strom: kontinuierlich
Internet: schnell und stabil
Software

kulturell

Sprach- und Schriftkenntnisse
Vertrautheit mit den Metaphern
Vertrautheit mit semantischen Modellen

Mind the `<gap/>`!
Zugangsvorraussetzungen

Du bist so schön wie eine zusätzliche Stunde Strom

"حبيبتي، انت جميلة، كساعة اضافية من الكهرباء"

هذا غزل أحد المتظاهرين في ساحة التحرير اليوم.
رائعة حقيقة! pic.twitter.com/KI8sAkY719
— aya mansour (@aya_mansour_11_) July 31, 2015

مريم .. أنتِ جميلة كساعة إضافية من الكهرباء ..

كتبها عاشق في فلسطين - غزة pic.twitter.com/W3QvpmaE3O
— Jawdat Alsaleh (@JawdatAlsaleh) June 27, 2017

#سأكتب_على_الجدار
أنتِ جميلة كساعة إضافية من الكهرباء pic.twitter.com/jKpLnnlorR
— A - M .. Syria (@Azrael90) January 17, 2018

Mind the `<gap/>`!
Zwischen Globalem Norden und Globalem Süden

Globaler Norden

Hegemon
Autor der technischen und kulturellen Standards der Digitalität

Globaler Süden

nicht homogen, kein universeller “Anderer”
Vielzahl heterogener Regionalitäten
gemeinsame Erfahrung der konstanten Auseinandersetzung mit dem Hegemon

Mind the `<gap/>`!
Digital Humanities als Teil des Globalen Nordens

Globale Verteilung von DH Zentren. Quelle: DH centerNet

3. Mind the `<gap/>`!
Linguistic imperialism

Linguistic imperialism

‘Linguistic imperialism’ is shorthand for a multitude of activities, ideologies, and structural relationships. Linguistic imperialism takes place within an overarching structure of asymmetrical North/ South relations, where language interlocks with other dimensions, cultural (particularly in education, science, and the media), economic and political

(Phillipson „Realities and Myths of Linguistic Imperialism“ 1997, 239)

The basis for the codes, languages, methodologies, and technical instruments of the digital humanities is English; the written and spoken language of all the main conferences, the most prestigious journals, the institutions that control the discipline, the organizations and international consortia, and the central authorities of knowledge is, with few exceptions, some dialect of British or American English.

(Fiormonte „Taxation Against Overrepresentation?“ 2021, 334–35)

Englischkenntnisse sind unabdingbar

Englisch ist die Lingua Franca und Basis der technischen Infrastruktur

Beispiel: CSS

body {
    background: white;
    color: black;
}

Beispiel: R

library(tidyverse)
setwd("/path/to/folder/")
load("oape_stats.rda")
المجلات <- c("4770057679", "644997575", "472450345", "792756327")
المشار.اليها <- المشار.اليها %>%
    filter(رقم.فهرس %in% المجلات)
write.table(المشار.اليها, file = "csv/oape_stats.csv", row.names = FALSE, quote = TRUE, sep = ",")

Schriften und Sprachen des Globalen Nordens sind der Hegemon der Interfaces

Arabisch

Schrift

zweithäufigste Schrift
- aktuell für 14 Sprachen verwendet, u.a. Arabisch, Persisch, Urdu, Pashtu.

Sprache

fünfthäufigste Sprache
- eine von sechs Amtssprachen der UN
- Amtssprache in 26 Ländern
- >420 Mio. Sprechende
liturgische Sprache des Islams mit 1,6 Mrd. Gläubigen

Figure 13: Beispiel: (Zakham „Amīrkā wa-ʿulamāʾ al-ʿArab“ 1907)

Arabisch

Schrift

Schriftrichtung von rechts nach links
Buchstaben (Grapheme) werden mehrheitlich in Schreibrichtung verbunden und ändern dabei ihre Form (Allographen): ج جـ ـجـ ـج
Grapheme bestehen aus Basisformen (Archigraphem, rasm) und diakritischen Zeichen (iʿjām)
- Gebrauch unterliegt historischem Wandel und regionalen Präferenzen
Vokalisierung (tashkīl) kann hinzugefügt werden und hat Einfluss auf Bedeutung

أميركا وعلماء العرب

كانت أميركا مجهولة عند ابنآء القرن الخامس عشر بدليل ان المؤرخين في ذلك العهد لم يذكروا عنها سوى اخبار اكتشافها في أواخر ذلك القرن

(Zakham „Amīrkā wa-ʿulamāʾ al-ʿArab“ 1907)

امىرکا وعلماء العرٮ

کاںٮ امىرکا محهوله عںد اٮںا الٯرں الحامس عسر ٮدلىل اں المورحىں ڡى دلک العهد لم ىدکروا عںها سوى احٮار اکٮساڡها ڡى اواحر دلک الٯرں

rasm

Arabisch in der Digitalität

Zum großen Teil nicht unterstützt

Zeichenkodierung lange Zeit nicht unterstützt
- Latinisierte Umschriften
  - Arabisch: تصوير الافكار -> taṣwīr al-afkār (IJMES)
  - Osmanisch: تصوير افكار -> teṣvīr-i efkār (IJMES)
- “gelehrte” Umschrift vs Praxis des Arabisi
Allographen (Verbindungsformen) werden der Rendering Engine überlassen
- Microsoft Office for Mac: 2015
- ggplot(Plots in R): 2021
- Gephi: 2020
OCR ist nicht funktional*

أميركا وعلماء العرب

(Zakham „Amīrkā wa-ʿulamāʾ al-ʿArab“ 1907)

Amīrkā wa ʿulamāʾ al-ʿarab

Kānat Amīrkā majhūla ʿinda abnāʾ al-qarn al-khāmis ʿashr bi-dalīl anna al-muʾarikhīn fī dhalika al-ʿahd lam yadhkarū ʿanhā siwā akhbār iktishāfihā fī awākhir dhalika al-qarn

Umschrift (IJMES)

Erfassung
Grapheme und Zeichenkodierung

Unicode ist nicht die Lösung aller Probleme

Unicode: Industriekonsortium und ein Standard
Idee: Trennung von Bedeutung und Form
Probleme:
- Kodierungen folgen Sprachen, nicht Schriften
- inkonsistent
OS, Browser etc. normalisieren die Varianz nicht.
Folge: Volltextsuchen sind nicht aussagekräftig
- 32 Arten “mekkanisch” (مكية) zu schreiben

Figure 14: Browsersuche nach “مك” im Wikidataeintrag für Mekka (Q5806)

Darstellung
basale Standards werden nicht unterstützt

Beispiel 1: Werbung (Grafik- und Layout Programme)

Figure 15: “Arabische” Werbung Abstand zu halten um sich und andere vor Covid-19 zu schützen, Washentaw County, Health Department. Quelle: Twitter

Figure 16: Korrigierte Fassung nachdem Twitternutzer_innen auf die Fehler hinwiesen. Quelle: Twitter

Darstellung
basale Standards werden nicht unterstützt

Beispiel 2: Webbrowser und HTML 5

Browser ignorieren das HTML5 Attribut @lang und stellen Arabisch linksbündig dar

Darstellung
Arabische Inhalte in LTR-Standards

Figure 19: Bidirektionales XML vom Anfang von (Dammūs „Ṣiḥāfat Sūriyya wa-Lubnān“ 1911). Die farbigen Pfeile zeigen die Leserichtung an. Die Zahlen unter den Pfeilen zeigen die Lesesequenz an.

4. Mind the `<gap/>`!
Digitalisierung des Kulturerbes

Digitalisierung des Kulturerbes
neo-koloniale Unsichtbarkeit des Globalen Südens

Erfassung

Digitalisierung ist teuer: public-private partnerships, private vendors

Findet primär im Globalen Norden statt
Kuratorische Entscheidungen
- Sammlung
- Katalogisierung
- Digitalisierung
Technische Entscheidungen
- Workflows, Modelle, Ontologien des Nordens
Wirtschaftliche Entscheidungen
- Outsourcing

Bereitsstellung

Platformen zur Maximierung des Gewinns

Proprietäre Interfaces
Datensilos ohne APIs
Bezahlschranken
geo-fencing

Digitalisierung des Kulturerbes
Katalogisierung

Digitale Kataloge sind digitalisierte Kataloge
Katalogisierungsregeln sind historisch kontingent
- nutzen lateinische Umschriften (plural!!)
- unterscheiden nicht konsequent zwischen Schrift und Sprache
- Kalender sind häufig falsch
Kataloge sind lokal, Aggregierung zumeist auf nationaler Basis
Nutzung zumeist über Webinterfaces
- Worldcat und Arabic Union Catalogue (ArUC) haben keine kostenlose API

Digitalisierung des Kulturerbes
Katalogisierung

Suche in der ansonsten großartigen ZDB

kein Arabisch

keine volle Umschrift (dmg al-Ǧanna, ijmes al-Janna)

defektive Umschrift ohne “al-”
Umfang der Normalisierung unklar (ʿ wird komplet herausgefiltert, ' und ʾ nicht)

Digitalisierung des Kulturerbes
Was können wir überhaupt sehen?

Welche Verzerrungen bildet die Karte ab: Sammlung, Katalogiesierung, Digitalisierung der Wissensinfrastruktur?

Figure 20: Karte von in Worldcat und ArUC erfassten Beständen der Zeitschrift al-Muqtabas — Figure 20: Karte von in Worldcat und ArUC erfassten Beständen der Zeitschrift *al-Muqtabas*

Closing the knowledge `<gap/>`
Project Jarāʾid (2012–)

Bibliographische Erfassung sämtlicher arabisch-sprachiger Periodika weltweit seit ihrer Entstehung um 1800 bis 1929.
- Webseite und offene Datensätze (TEI XML) für mehr als 3700 Periodika
- Normdatensätze für c.2700 Personen, 220 Orte, 180 Bibliotheken u.ä.
Kollaboration mit Adam Mestyan (Duke), “Crowd”-Sourcing
Seit 2021/22: Integration von Bibliothekskatalogen, ZDB, HathiTrust

Figure 21: In Project Jarāʾid erfasste Periodika. Größe der Kreise korrespondiert mit Anzahl der Periodikatitel. Farben zeigen den Status an: bekannte Sammlung (grün), davon digitalisiert (blau), Rest (rot).

Project Jarāʾid
Mind the `<gap/>`!

Wissenslücke -> Digitalisierungslücke

Arabische Periodika bis 1929 weltweit

Arabisch: 420 Mio Sprechende
3269 Zeitungen und Zeitschriften
davon knapp 1/4 (747) in Sammlungen lokalisiert
davon wiederum knapp 1/5 (145) digitalisiert
Bezahlschranken, geo-fencing

Zum Vergleich: “Der Erste Weltkrieg im Spiegel hessischer Regionalzeitungen”

Hessen: 6,2 Mio. Einwohner_innen
125 Zeitungen mit mehr als ½ Mio. Seiten
Digitalisat: Faksimile und Volltext
Offen zugänglich

Digitalisierung des Kulturerbes
Copyrightregime, Bezahlschranken und Geo-fencing

Katalogisierungsregeln und algorithmische Copyrightbestimmung verstärken Unzugänglichkeiten

Figure 22: al-Muqtabas 6 auf HathiTrust (Original in Princeton) außerhalb der USA — Figure 22: *al-Muqtabas* 6 auf HathiTrust (Original in Princeton) außerhalb der USA

Figure 23: al-Muqtabas 6 auf HathiTrust mit US IP — Figure 23: *al-Muqtabas* 6 auf HathiTrust mit US IP

Digitalisierung des Kulturerbes
Klassisches / kommerzielles OCR

basiert auf Segmentierung in Buchstaben

Figure 24: Evaluierung von OCR Software für Arabisch, (Alghamdi und Teahan „Experimental evaluation of Arabic OCR systems“ 2017, table IV)

Digitalisierung des Kulturerbes
Die resultierenden Textschichten

Anbieter halten Algorithmen und Evaluierung unter Verschluss: unbekannte Anzahl von false negatives
Keine Strukturierung, keine APIs, proprietäre Interfaces

al-Muqtabas 6 on HathiTrust, Qualität der OCR-Schicht (nur mit US IP zugänglich) — *al-Muqtabas* 6 on HathiTrust, Qualität der OCR-Schicht (nur mit US IP zugänglich)

al-Bashīr 9 Jan. 1880 (#487), p.1 on GPA, Qualität der OCR-Schicht — *al-Bashīr* 9 Jan. 1880 (#487), p.1 on GPA, Qualität der OCR-Schicht

Closing the tool `<gap/>`
OCR/HTR für arabische Periodika (2019–)

State of the art

Maschinelles Lernen ohne Segmentierung in Buchstaben
- Tesseract, Kraken / Ocropus, Transkribus
Es gibt gut finanzierte Projekte zu arabischen Schriften
- OpenITI (Mellon, ECR, Harvard)
Probleme
- Projekte halten ihre Modelle und Infrastrukturen mehrheitlich unter Verschluss
- keine GUI
- GUI sind nicht auf Arabisch ausgelegt
- teuer: Rechenzeit, Upload von 100.000den Bildern

Unser Experiment

Kollaboration mit Sinai Rusinek (Haifa)
Ansatz:
- Maschinelles Lernen ohne Segmentierung in Buchstaben
Software: Transkribus, Tesseract 4
Probleme:
- Benötigt vielfältige Ground Truth
- Komplexes Layout von Periodikaseiten
- Software nimmt Links-nach-rechts als Leserichtung an

OCR/HTR für arabische Periodika

Ergebnisse mit Transkribus

ID	based on	ground truth	words	lines	epochs	CER train	CER validation
15946		al-Ustādh	192829	18732	200	2.01	2.09
13864		al-Muqtabas	11116	1013	200	0.07	8.40

Closing the infrastructural `<gap/>`
Open Arabic Periodical Editions (OpenArabicPE, 2015–)

Ansatz

Verbindung vorhandener Faksimiles und Transkriptionen in einem standardkonformen, offenen Format
Scraping, Erzeugung, Validierung und Teilen von offenen bibliographischen Metadaten

Ziele

Validierung und Nutzbarmachung vorhandener Transkriptionen
Aufbau einer offenen Infrastruktur von Modellen, Workflows, Normdatensätzen
Unter den Bedingungen des Globalen Südens

Prinzipien

Etablierte Werkzeuge und Technologien
wenige, offene und einfache Formate und Werkzeuge
kostenfreie Platformen ohne lock-in

OpenArabicPE

Infrastruktur

Digitale Editionen, Normdatensätze: TEI XML.
Offene Lizenzen: CC BY-SA 4.0 (TEI, MODS, BibTeX), MIT license (XSLT, XQuery)
Soziale digitale Editionen, die auf GitHub gehostet sind:
Archivierung auf Zenodo: DOI für dauerhafte Referenzierbarkeit
Statische Webansichten: Parallele Darstellung von Text und Faksimile.
Bibliographische Metadaten sind als öffentliche Zotero-Gruppe gehostet

Figure 25: Webansicht von al-Muqtabas 6(2) — Figure 25: Webansicht von *al-Muqtabas* 6(2)

OpenArabicPE

Korpus

Periodikum	DOI	Bände	Ausgaben	Artikel	Wörter
al-Ḥaqāʾiq	10.5281/zenodo.1232016	3	35	389	298090
al-Ḥasnāʾ	10.5281/zenodo.3556246	1	12	201	NA
al-Manār		35	537	4300	6144593
al-Muqtabas	10.5281/zenodo.597319	9	96	2964	1981081
al-Ustādh	10.5281/zenodo.3581028	1	42	435	221447
al-Zuhūr	10.5281/zenodo.3580606	4	39	436	292333
Lughat al-ʿArab	10.5281/zenodo.3514384	3	34	939	373832
total		56	795	9664	9311376

5. Versuche einer Digital History

SIHAFA

Ziele:

systematische Erforschung der spätosmanischen arabischen Presse at scale
Entwicklung/Evaluation von digitalen Methoden
Hinterfragung etablierter Forschungsnarrative
Etablierung von “Arab Periodical Studies”

Fragen

Wer sind die zentralen Akteure (Personen, Periodika) in diesem diskursiven Feld?
Wie sind Periodika produziert worden? Wie ist Autorenschaft zu denken?
Welche Rolle spielt text reuse? Wie reisten Texte, Themen, Genres?
Wie hat sich die Sprache der Moderne im multilingualen, imperialen Raum etabliert?

Methoden

Netzwerkanalyse
stilometrische Autorenschaftbestimmung
historische GIS
Layoutanalyse
Topic modelling
Word embeddings

1. Historisches GIS: Typologie der Periodika

Hypothese: geographische Herkunft von Artikeln in einem Periodikum erlaubt Rückschlüsse über seine Bedeutung

trans-regional

Figure 26: Karte der in den Autorenzeilen erwähnten Orte für al-Muqtabas (Kairo und Damaskus) — Figure 26: Karte der in den Autorenzeilen erwähnten Orte für *al-Muqtabas* (Kairo und Damaskus)

regional

Figure 27: Karte der in den Autorenzeilen erwähnten Orte für al-Ḥasnāʾ (Beirut) — Figure 27: Karte der in den Autorenzeilen erwähnten Orte für *al-Ḥasnāʾ* (Beirut)

lokal

Figure 28: Karte der in den Autorenzeilen erwähnten Orte für al-Ḥaqāʾiq (Damaskus) — Figure 28: Karte der in den Autorenzeilen erwähnten Orte für *al-Ḥaqāʾiq* (Damaskus)

Historisches GIS

Voraussetzungen: Daten

Erste Quellen: OpenArabicPE
Auszeichnung von Orten im modellierten Volltext
- Autor_innenzeilen
- Rezensionen
- Probleme: kein funktionales arabisches NER
Normdatensätze für die Disambiguierung und Anreicherung von Daten
- Georeferenzierte Orte
- Probleme: Mangel an historischen Ortsverzeichnissen (gazetteer)

Autor_innenzeile: Maryam Zakā aus Saida

 <byline>
    <placeName ref="oape:place:9 geon:268064">صيدا</placeName>
    <persName ref="oape:pers:2845">مريم زكا</persName>
</byline>

Gazetteer-Eintrag für Saida

<place type="town" xml:id="place_9">
    <placeName type="simple">Saida</placeName>
    <placeName xml:lang="ar-Latn-x-ijmes">Ṣaydā</placeName>
    <placeName xml:lang="en">Sidon</placeName>
    <placeName xml:lang="ar">صيدا</placeName>
    <location>
        <geo>33.55751, 35.37148</geo>
    </location>
    <idno type="url">http://en.wikipedia.org/wiki/Sidon</idno>
    <idno type="geon">268064</idno>
    <idno type="oape">9</idno>
</place>

2. Netzwerkanalyse: erwähnte Periodika

Figure 29: Gerichtetes Netzwerk der in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas erwähnten Periodika; nach Ausgaben gewichtet. Größe und Farbe der Knoten: in-degree. — Figure 29: Gerichtetes Netzwerk der in *al-Ḥaqāʾiq*, *al-Ḥasnāʾ*, *Lughat al-ʿArab* und *al-Muqtabas* erwähnten Periodika; nach Ausgaben gewichtet. Größe und Farbe der Knoten: in-degree.

Ziel

empirische Überprüfung von Hypothesen
Entscheidungshilfe für Digitalisierung

Erste Ergebnisse

hauptsächlich selbstreferentiell
Typologie: Grad der Weltzugewandtheit
Kernnetzwerk:
- Überraschende Mitglieder
- Hochgradig geographisch konzentriert

Netzwerkanalyse: erwähnte Periodika

Voraussetzungen: Daten

Erste Quellen: OpenArabicPE, Project Jarāʾid, OCR
Auszeichnung aller Erwähnungen von Periodika im modellierten Volltext
- semi-automatisch (regex): folgt dem Muster “Zeitung ABC”, “Zeitschrift DEF”
- Probleme: kein funktionales arabisches NER
Normdatensätze für die Disambiguierung und Anreicherung von Daten
- Bibliographie
- Probleme: geringe Quote in vorhandenen Normdatensätzen

Das Magazin al-Zuhūr aus Kairo

والأصح الدرعية بلام التعريف (راجع <bibl subtype="journal" type="periodical">مجلة <title level="j" ref="oape:bibl:3 oclc:1034545644">الزهور</title> المصرية  <biblScope unit="volume" from="2" to="2">٢</biblScope> :  <biblScope unit="page" from="292">٢٩٢</biblScope></bibl>)

Die Zeitung al-Zuhūr aus Baghdad

وانتخب <persName>فؤاد أفندي الدفتري البغدادي</persName> و<bibl><editor><persName>نوري أفندي</persName></editor> راس كتاب <textLang otherLangs="ota">القسم التركي</textLang> في <bibl type="periodical" subtype="newspaper">جريدة <title ref="oape:bibl:532">الزهور</title></bibl> البغدادية</bibl> نائبين عن <placeName ref="oape:place:372 geon:94824">كربلاء</placeName>.

2. Netzwerkanalyse: Autor_innen

Figure 30: Ungerichtetes Netzwerk der Autor_innen in al-Ḥaqāʾiq, al-Ḥasnāʾ, Lughat al-ʿArab und al-Muqtabas. Farbe der Knoten: betweenness centrality; Größe der Knoten: Anzahl der Periodika; Breite der Kanten: Anzahl der Artikel. — Figure 30: Ungerichtetes Netzwerk der Autor_innen in *al-Ḥaqāʾiq*, *al-Ḥasnāʾ*, *Lughat al-ʿArab* und *al-Muqtabas*. Farbe der Knoten: betweenness centrality; Größe der Knoten: Anzahl der Periodika; Breite der Kanten: Anzahl der Artikel.

Ziel

empirische überprüfung von Hypothesen
Forschungsleitend für close reading

Erste Ergebnisse

Sehr begrenzte Überschneidung zwischen Periodika aus der gleichen Stadt
Kernnetzwerk:
- praktisch nicht in der Forschung abgebildet
- Überraschende Zusammensetzung: viele Iraker (6), wenige Syrer (2), wenige Christen (2)

Netzwerkanalyse: Autor_innen

Voraussetzungen: Daten

Erste Quellen: OpenArabicPE, Project Jarāʾid
Strukturierte bibliographische Daten
- semi-automatisch auf Basis der Editionen
- manuelle Erfassung
- Probleme: viele Abkürzungen, vielfältige Namensformen
Normdatensätze für die Disambiguierung und Anreicherung von Daten
- Lebensdaten
- Werke in Bibliothekskatalogen
- Probleme: geringe Quote in vorhandenen Normdatensätzen

Personographie-Eintrag für Père Anastase-Marie de Saint-Elie (Normdatensatz), der sich in den Quellen vornehmlich als Sātisnā findet.

<person>
    <persName><roleName type="pseudonym">ساتسنا</roleName></persName>
    <persName><roleName type="pseudonym">أمكح</roleName></persName>
    <persName><roleName type="pseudonym">فهر الجابري</roleName></persName>
    <persName><roleName type="rank">الأب</roleName> <forename>أنستاس</forename> <forename>ماري</forename> <surname><addName type="nisbah">الكرملي</addName></surname></persName>
    <persName><forename>أنستاس</forename> <forename>ماري</forename> <addName type="nisbah">الألياوي</addName> <surname><addName type="nisbah">الكرملي</addName></surname></persName>
    <persName><forename>بطرس</forename> <addName type="nasab">بن <forename>جبرائيل</forename></addName> <forename>يوسف</forename> <surname>عواد</surname></persName>
    <idno type="VIAF">39370998</idno>
    <idno type="oape">227</idno>
    <idno type="wiki">Q4751824</idno>
    <birth><date source="viaf" when="1866-08-05">1866-08-05</date> in <placeName ref="oape:place:216 geon:98182">Baghdad</placeName></birth>
    <death><date source="viaf" when="1947-01-07">1947-01-07</date> in <placeName ref="oape:place:216 geon:98182">Baghdad</placeName></death>
</person>

Problem: Das Netzwerk der Autor_innen umfasst nur 17% aller Artikel

Forschungsstand

Die Frage der Autorenschaftsbestimmung ist weitgehend ignoriert worden
Implizite und häufig angenommene Hypothese: die Herausgeber_innen haben alle anonymen Artikel selbst geschrieben

Probleme

Hypothese ist nicht überprüft
Wir kennen gar nicht die Namen aller potentiellen Kandidat_innen
Es ist sehr unwahrscheinlich, dass alles von einer Person verfasst wurde

3. Stilometrie zur Autorenschaftsbestimmung

komparative Methode:
- Vergleich stylistischer Merkmale (most frequent words MFWs) liefert ein nummerisches Abstandsmaß (Verschiedenheit)
- Selbstvalidierung: Abstimmung der Ergebnisse mehrerer Iterationen mit verschiedenen Anzahlen von MFWs
Ist bis jetzt nicht auf arabische Texte angewendet worden
Herausvorderungen:
- abhängig von der Zusammensetzung des Korpus
- Texte müssen eine Mindestlänge haben

Figure 31: PCA Kovarianzmatrix für die 100 MFWs in einem Korpus von 165 Ausgaben von al-Ḥaqāʾiq, Lughat al-ʿArab und al-Muqtabas — Figure 31: PCA Kovarianzmatrix für die 100 MFWs in einem Korpus von 165 Ausgaben von *al-Ḥaqāʾiq*, *Lughat al-ʿArab* und *al-Muqtabas*

Lughat al-ʿArab and al-Muqtabas are indistinguishable
al-Ḥaqāʾiq is different
some issues of al-Muqtabas are very different

Figure 32: PCA Kovarianzmatrix für die 100 MFWs in einem Korpus von 165 Ausgaben von al-Ḥaqāʾiq, Lughat al-ʿArab und al-Muqtabas — Figure 32: PCA Kovarianzmatrix für die 100 MFWs in einem Korpus von 165 Ausgaben von *al-Ḥaqāʾiq*, *Lughat al-ʿArab* und *al-Muqtabas*

Stilometrie: erste Experimente

Falsifizierung der Hypothese

Figure 33: Figure: bootstrap consensus network von Artikeln in al-Muqtabas (Länge >= 5000 Wörter, 100–1000 MFWs). Farbe: modularity group — Figure 33: Figure: *bootstrap consensus network* von Artikeln in *al-Muqtabas* (Länge >= 5000 Wörter, 100–1000 MFWs). Farbe: *modularity group*

Stilometrie funktioniert für arabische Periodika
Signale für
- Autorenschaft
- Herausgeberschaft
- Übersetzung
Zusätzliches (Sub)-signal
- Genre

6. Schlußbemerkungen
Mind the `<gap/>`!

Mind the `<gap/>`!

bei Forschung/Lehre zu Digitalität
bei digitaler Forschung/Lehre
beim Aufbau von Infrastrukturen
beim Forschungsdatenmanagement
…

Graffiti “Du bist so schön, wie eine zusätzliche Stunde Strom”, Gaza. Quelle: Twitter

Danke!

Beiträger_innen zu Project Jarāʾid: Hala Auji, Philippe Chevrant, Marina Demetriadou, Lamia Eid, Stacy Fahrenthold, Ulrike Freitag, Rana Issa, Nicole Khayat, Peter Magierski, Leyla von Mende, Adam Mestyan, Christian Meier, Daniel Newman, Geoffrey Roper, Sinai Rusinek, Philip Sadgrove, Ola Seif, and Rogier Visser
Beiträger_innen zu OpenArabicPE: Jasper Bernhofer, Dimitar Dragnev, Patrick Funk, Talha Güzel, Hans Magne Jaatun, Jakob Koppermann, Xaver Kretzschmar, Daniel Lloyd, Klara Mayer, Tobias Sick, Manzi Tanna-Händel, and Layla Youssef
Beiträger_innen zu OCR: Adam Mestyan, Sinai Rusinek
Links:
- Slides: https://tillgrallert.github.io/slides/dh/2022-digital-history-colloquium
- Publikationen:
  - (Grallert „Catch Me If You Can!“ 2021)
  - (Grallert „Open Arabic Periodical Editions: A Framework for Bootstrapped Scholarly Editions Outside the Global North“ 2022)
- Project URLs: https://www.github.com/OpenArabicPE, https://openarabicpe.github.io,
- Twitter: @tillgrallert
- Email:
Licence: slides and plots are licenced as CC BY-SA 4.0

Literatur

Alghamdi, Mansoor, und William Teahan. 2017. „Experimental evaluation of Arabic OCR systems“. PSU Research Review 1 (3): 229–41. https://doi.org/gh4457.

Dammūs, Ḥalīm Ibrāhīm. 1911. „Ṣiḥāfat Sūriyya wa-Lubnān“ [The Press of Syria and Lebanon]. al-Zuhūr 2 (4), 1. Juni 1911. https://openarabicpe.github.io/journal_al-zuhur/tei/oclc_1034545644-i_15.TEIP5.xml#div_1.d2e634.

Fiormonte, Domenico. 2021. „Taxation Against Overrepresentation? The Consequences of Monolingualism for Digital Humanities“. In Alternative Historiographies of the Digital Humanities, herausgegeben von Dorothy Kim und Adeline Koh, 333–76. Earth: punctum books. https://doi.org/10.53288/0274.1.00.

Grallert, Till. 2021. „Catch Me If You Can! Approaching the Arabic Press of the Late Ottoman Eastern Mediterranean Through Digital History“. Herausgegeben von Simone Lässig. Geschichte Und Gesellschaft 47 (1, Digital History): 58–89. https://doi.org/gkhrjr.

———. 2022. „Open Arabic Periodical Editions: A Framework for Bootstrapped Scholarly Editions Outside the Global North“. Herausgegeben von Roopika Risam und Alex Gil. Digital Humanities Quarterly 16 (2, "Minimal Computing"). http://digitalhumanities.org/dhq/vol/16/2/000593/000593.html.

Phillipson, Robert. 1997. „Realities and Myths of Linguistic Imperialism“. Journal of Multilingual and Multicultural Development 18 (3): 238–48. https://doi.org/db3cnb.

Zakham, Yūsuf. 1907. „Amīrkā wa-ʿulamāʾ al-ʿArab“ [America and Arab Scholars]. al-Muqtabas 2 (1), 14. Februar 1907. https://OpenArabicPE.github.io/journal_al-muqtabas/tei/oclc_4770057679-i_13.TEIP5.xml#div_8.d1e1249.

Zur Erschließung arabischer Periodika aus spätosmanischer Zeit

Herausforderungen einer multilingualen und multiskriptoralen Digital History