Характеристика нарративного содержания в веб-масштабных данных предварительного обучения LLM

Аннотация

Нарративный состав веб-масштабных корпусов предобучения LLM остается в значительной степени неизученным, несмотря на то, что нарратив является фундаментальным способом человеческой коммуникации. Мы представляем первое детальное исследование нарративных характеристик в Dolma — открытом корпусе предобучения объемом 3 триллиона токенов. Опираясь на теорию нарратива, мы разрабатываем структуру, охватывающую три основных нарративных элемента (агентность, обстановку и события), операционализированных в виде 11 интерпретируемых измерений. После выборки и аннотирования разнообразного набора из 400 отрывков мы дообучаем и проверяем NarraBERT — модель на основе RoBERTa для детального предсказания нарративных характеристик. Мы применяем NarraBERT к 3 миллионам отрывков, что приводит к созданию нового набора данных NarraDolma. Мы обнаруживаем: (i) нарративная структура измерима в масштабе на чрезвычайно гетерогенных данных; (ii) мы выявляем непрерывную многомерную нарративную структуру, лежащую в основе веб-текстов; (iii) нарративные качества неравномерно распределены по источникам предобучения и темам таким образом, который текущие практики курирования не измеряют и не учитывают. Наша структура, набор данных и анализ создают основу для понимания того, как нарративные качества распределены в данных предобучения LLM, и для изучения того, как состав данных влияет на задачи нарративного рассуждения. Мы публично выпускаем NarraDolma и NarraBERT.

English

The narrative composition of web-scale LLM pretraining corpora remains largely unexplored even though narrative is a fundamental mode of human communication. We present the first fine-grained study of narrative features in Dolma, a 3-trillion-token open pretraining corpus. Drawing on narrative theory, we design a framework spanning three core narrative elements (agency, setting, and events) operationalized as 11 interpretable dimensions. After sampling and annotating a diverse set of 400 passages, we finetune and validate NarraBERT, a RoBERTa-based model for fine-grained narrative prediction. We apply NarraBERT to 3M passages, resulting in a new dataset, NarraDolma. We find (i) narrative structure is measurable at scale across extremely heterogeneous data, (ii) we uncover a continuous, multidimensional narrative structure underlying web text, and (iii) narrative qualities are unequally distributed across pretraining sources and topics in ways that current curation practices neither measure nor account for. Our framework, dataset, and analyses provide a foundation for understanding how narrative qualities are distributed in LLM pretraining data and for studying how data composition affects narrative reasoning tasks. We publicly release NarraDolma and NarraBERT.