ChatPaper.aiChatPaper

Web規模の大規模言語モデル事前学習データにおける物語内容の特徴付け

Characterizing Narrative Content in Web-scale LLM Pretraining Data

June 17, 2026
著者: Teagan Johnson, Elliott Ash, Andrew Piper, Maria Antoniak
cs.AI

要旨

ウェブ規模のLLM事前学習コーパスの物語構成は、物語が人間のコミュニケーションの基本的な様式であるにもかかわらず、ほとんど調査されていない。本稿では、3兆トークンからなるオープン事前学習コーパスDolmaにおける物語的特徴の初めての細粒度研究を提示する。物語理論に基づき、3つの核となる物語要素(行為主体性、場面設定、出来事)を11の解釈可能な次元として具体化したフレームワークを設計する。多様な400のパッセージをサンプリングしアノテーションした後、細粒度の物語予測のためのRoBERTaベースモデルであるNarraBERTをファインチューニングし検証する。NarraBERTを300万のパッセージに適用し、新たなデータセットNarraDolmaを構築する。その結果、以下の知見を得た。(i) 極めて異質なデータ全体において、物語構造は大規模に測定可能である。(ii) ウェブテキストの背後には連続的かつ多次元的な物語構造が存在する。(iii) 物語の質は、事前学習ソースやトピック間で不均等に分布しており、現在のキュレーション手法ではこれを測定も考慮もしていない。本フレームワーク、データセット、および分析は、LLM事前学習データにおける物語の質の分布を理解し、データ構成が物語推論タスクに与える影響を研究するための基盤を提供する。NarraDolmaとNarraBERTは公開する。
English
The narrative composition of web-scale LLM pretraining corpora remains largely unexplored even though narrative is a fundamental mode of human communication. We present the first fine-grained study of narrative features in Dolma, a 3-trillion-token open pretraining corpus. Drawing on narrative theory, we design a framework spanning three core narrative elements (agency, setting, and events) operationalized as 11 interpretable dimensions. After sampling and annotating a diverse set of 400 passages, we finetune and validate NarraBERT, a RoBERTa-based model for fine-grained narrative prediction. We apply NarraBERT to 3M passages, resulting in a new dataset, NarraDolma. We find (i) narrative structure is measurable at scale across extremely heterogeneous data, (ii) we uncover a continuous, multidimensional narrative structure underlying web text, and (iii) narrative qualities are unequally distributed across pretraining sources and topics in ways that current curation practices neither measure nor account for. Our framework, dataset, and analyses provide a foundation for understanding how narrative qualities are distributed in LLM pretraining data and for studying how data composition affects narrative reasoning tasks. We publicly release NarraDolma and NarraBERT.