Charakterisierung narrativer Inhalte in webumfassenden LLM-Vortrainingsdaten

Zusammenfassung

Die narrative Zusammensetzung von web-scale LLM-Pretraining-Korpora bleibt weitgehend unerforscht, obwohl Erzählen eine grundlegende Form menschlicher Kommunikation ist. Wir stellen die erste detaillierte Studie zu narrativen Merkmalen in Dolma vor, einem offenen Pretraining-Korpus mit 3 Billionen Tokens. Aufbauend auf der Erzähltheorie entwickeln wir ein Framework, das drei Kernelemente der Erzählung umfasst (Handlungsträger, Schauplatz und Ereignisse), operationalisiert als 11 interpretierbare Dimensionen. Nach der Stichprobenziehung und Annotation eines vielfältigen Satzes von 400 Textpassagen feintunen und validieren wir NarraBERT, ein auf RoBERTa basierendes Modell zur feinkörnigen narrativen Vorhersage. Wir wenden NarraBERT auf 3 Millionen Textpassagen an, was zu einem neuen Datensatz, NarraDolma, führt. Wir stellen fest: (i) narrative Struktur ist im großen Maßstab über extrem heterogene Daten hinweg messbar, (ii) wir decken eine kontinuierliche, mehrdimensionale narrative Struktur auf, die Webtexten zugrunde liegt, und (iii) narrative Qualitäten sind ungleich über Pretraining-Quellen und Themen verteilt, und zwar auf eine Weise, die aktuelle Kuratierungspraktiken weder messen noch berücksichtigen. Unser Framework, Datensatz und unsere Analysen bieten eine Grundlage für das Verständnis, wie narrative Qualitäten in LLM-Pretraining-Daten verteilt sind, und für die Untersuchung, wie die Datenzusammensetzung narrative Reasoning-Aufgaben beeinflusst. Wir veröffentlichen NarraDolma und NarraBERT öffentlich.

English

The narrative composition of web-scale LLM pretraining corpora remains largely unexplored even though narrative is a fundamental mode of human communication. We present the first fine-grained study of narrative features in Dolma, a 3-trillion-token open pretraining corpus. Drawing on narrative theory, we design a framework spanning three core narrative elements (agency, setting, and events) operationalized as 11 interpretable dimensions. After sampling and annotating a diverse set of 400 passages, we finetune and validate NarraBERT, a RoBERTa-based model for fine-grained narrative prediction. We apply NarraBERT to 3M passages, resulting in a new dataset, NarraDolma. We find (i) narrative structure is measurable at scale across extremely heterogeneous data, (ii) we uncover a continuous, multidimensional narrative structure underlying web text, and (iii) narrative qualities are unequally distributed across pretraining sources and topics in ways that current curation practices neither measure nor account for. Our framework, dataset, and analyses provide a foundation for understanding how narrative qualities are distributed in LLM pretraining data and for studying how data composition affects narrative reasoning tasks. We publicly release NarraDolma and NarraBERT.