Caractérisation du contenu narratif dans les données de pré-entraînement de LLM à l'échelle du web

Résumé

La composition narrative des corpus de pré-entraînement à grande échelle pour les LLM reste largement inexplorée, bien que la narration soit un mode fondamental de communication humaine. Nous présentons la première étude fine des caractéristiques narratives dans Dolma, un corpus de pré-entraînement ouvert de 3 000 milliards de tokens. En nous appuyant sur la théorie narrative, nous concevons un cadre couvrant trois éléments narratifs centraux (agentivité, cadre et événements) opérationnalisés en 11 dimensions interprétables. Après avoir échantillonné et annoté un ensemble diversifié de 400 passages, nous affinons et validons NarraBERT, un modèle basé sur RoBERTa pour la prédiction narrative fine. Nous appliquons NarraBERT à 3 millions de passages, ce qui donne un nouveau jeu de données, NarraDolma. Nous constatons (i) que la structure narrative est mesurable à grande échelle dans des données extrêmement hétérogènes, (ii) que nous découvrons une structure narrative continue et multidimensionnelle sous-jacente au texte web, et (iii) que les qualités narratives sont inégalement réparties entre les sources et les sujets de pré-entraînement, d'une manière que les pratiques actuelles de curation ne mesurent ni ne prennent en compte. Notre cadre, notre jeu de données et nos analyses fournissent une base pour comprendre comment les qualités narratives sont distribuées dans les données de pré-entraînement des LLM et pour étudier comment la composition des données affecte les tâches de raisonnement narratif. Nous rendons publics NarraDolma et NarraBERT.

English

The narrative composition of web-scale LLM pretraining corpora remains largely unexplored even though narrative is a fundamental mode of human communication. We present the first fine-grained study of narrative features in Dolma, a 3-trillion-token open pretraining corpus. Drawing on narrative theory, we design a framework spanning three core narrative elements (agency, setting, and events) operationalized as 11 interpretable dimensions. After sampling and annotating a diverse set of 400 passages, we finetune and validate NarraBERT, a RoBERTa-based model for fine-grained narrative prediction. We apply NarraBERT to 3M passages, resulting in a new dataset, NarraDolma. We find (i) narrative structure is measurable at scale across extremely heterogeneous data, (ii) we uncover a continuous, multidimensional narrative structure underlying web text, and (iii) narrative qualities are unequally distributed across pretraining sources and topics in ways that current curation practices neither measure nor account for. Our framework, dataset, and analyses provide a foundation for understanding how narrative qualities are distributed in LLM pretraining data and for studying how data composition affects narrative reasoning tasks. We publicly release NarraDolma and NarraBERT.