Karakterisering van narratieve inhoud in webschaal LLM-pretrainingsdata

Samenvatting

De narratieve samenstelling van web-schaal LLM-pre-trainingscorpora blijft grotendeels onontgonnen, ook al is narratief een fundamentele vorm van menselijke communicatie. Wij presenteren de eerste fijnmazige studie van narratieve kenmerken in Dolma, een open pre-trainingscorpus van 3 biljoen tokens. Op basis van narratieve theorie ontwerpen we een raamwerk dat drie kerncomponenten van narratief omvat (handelingsvermogen, omgeving en gebeurtenissen), geoperationaliseerd als 11 interpreteerbare dimensies. Na het samplen en annoteren van een diverse set van 400 passages, stellen we NarraBERT fijn af en valideren we het, een RoBERTa-gebaseerd model voor fijnmazige narratieve voorspelling. We passen NarraBERT toe op 3 miljoen passages, wat resulteert in een nieuwe dataset, NarraDolma. We vinden dat (i) narratieve structuur meetbaar is op schaal in extreem heterogene data, (ii) we een continue, multidimensionale narratieve structuur blootleggen die ten grondslag ligt aan webtekst, en (iii) narratieve kwaliteiten ongelijk verdeeld zijn over pre-trainingsbronnen en onderwerpen, op manieren die huidige curatiepraktijken niet meten noch verantwoorden. Ons raamwerk, onze dataset en onze analyses bieden een basis voor het begrijpen hoe narratieve kwaliteiten verdeeld zijn in LLM-pre-trainingsdata en voor het bestuderen hoe datasamenstelling narratieve redeneertaken beïnvloedt. We stellen NarraDolma en NarraBERT openbaar beschikbaar.

English

The narrative composition of web-scale LLM pretraining corpora remains largely unexplored even though narrative is a fundamental mode of human communication. We present the first fine-grained study of narrative features in Dolma, a 3-trillion-token open pretraining corpus. Drawing on narrative theory, we design a framework spanning three core narrative elements (agency, setting, and events) operationalized as 11 interpretable dimensions. After sampling and annotating a diverse set of 400 passages, we finetune and validate NarraBERT, a RoBERTa-based model for fine-grained narrative prediction. We apply NarraBERT to 3M passages, resulting in a new dataset, NarraDolma. We find (i) narrative structure is measurable at scale across extremely heterogeneous data, (ii) we uncover a continuous, multidimensional narrative structure underlying web text, and (iii) narrative qualities are unequally distributed across pretraining sources and topics in ways that current curation practices neither measure nor account for. Our framework, dataset, and analyses provide a foundation for understanding how narrative qualities are distributed in LLM pretraining data and for studying how data composition affects narrative reasoning tasks. We publicly release NarraDolma and NarraBERT.