Caracterización del Contenido Narrativo en Datos de Preentrenamiento de LLM a Escala Web

Resumen

La composición narrativa de los corpus de preentrenamiento de modelos de lenguaje a gran escala (LLMs) sigue siendo en gran medida inexplorada, a pesar de que la narrativa es un modo fundamental de comunicación humana. Presentamos el primer estudio detallado de las características narrativas en Dolma, un corpus de preentrenamiento abierto de 3 billones de tokens. Basándonos en la teoría narrativa, diseñamos un marco que abarca tres elementos narrativos centrales (agencia, entorno y eventos), operacionalizados en 11 dimensiones interpretables. Tras muestrear y anotar un conjunto diverso de 400 pasajes, ajustamos y validamos NarraBERT, un modelo basado en RoBERTa para la predicción narrativa detallada. Aplicamos NarraBERT a 3 millones de pasajes, generando un nuevo conjunto de datos, NarraDolma. Encontramos que (i) la estructura narrativa es medible a gran escala en datos extremadamente heterogéneos, (ii) descubrimos una estructura narrativa continua y multidimensional subyacente al texto web, y (iii) las cualidades narrativas se distribuyen de manera desigual entre las fuentes y los temas de preentrenamiento, de formas que las prácticas actuales de curación no miden ni consideran. Nuestro marco, conjunto de datos y análisis proporcionan una base para comprender cómo se distribuyen las cualidades narrativas en los datos de preentrenamiento de LLMs y para estudiar cómo la composición de los datos afecta las tareas de razonamiento narrativo. Publicamos públicamente NarraDolma y NarraBERT.

English

The narrative composition of web-scale LLM pretraining corpora remains largely unexplored even though narrative is a fundamental mode of human communication. We present the first fine-grained study of narrative features in Dolma, a 3-trillion-token open pretraining corpus. Drawing on narrative theory, we design a framework spanning three core narrative elements (agency, setting, and events) operationalized as 11 interpretable dimensions. After sampling and annotating a diverse set of 400 passages, we finetune and validate NarraBERT, a RoBERTa-based model for fine-grained narrative prediction. We apply NarraBERT to 3M passages, resulting in a new dataset, NarraDolma. We find (i) narrative structure is measurable at scale across extremely heterogeneous data, (ii) we uncover a continuous, multidimensional narrative structure underlying web text, and (iii) narrative qualities are unequally distributed across pretraining sources and topics in ways that current curation practices neither measure nor account for. Our framework, dataset, and analyses provide a foundation for understanding how narrative qualities are distributed in LLM pretraining data and for studying how data composition affects narrative reasoning tasks. We publicly release NarraDolma and NarraBERT.