Eine kontrollierbare Untersuchung von Sprachmodellen mit langem Kontext
A Controllable Examination for Long-Context Language Models
June 3, 2025
Autoren: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI
Zusammenfassung
Bestehende Frameworks zur Bewertung von Langkontext-Sprachmodellen (LCLM) lassen sich grob in realweltliche und synthetische Aufgaben kategorisieren. Trotz ihres Nutzens sind beide Ansätze mit bestimmten intrinsischen Einschränkungen verbunden. Realweltliche Aufgaben sind zu komplex, um sie zu interpretieren oder zu charakterisieren, und anfällig für Datenkontamination. Im Gegensatz dazu verwenden synthetische Aufgaben oft das „Nadel-im-Heuhaufen“-Format (NIAH), bei dem ein Mangel an Kohärenz zwischen der „Nadel“ und dem „Heuhaufen“ ihre Gültigkeit als Stellvertreter für realistische Anwendungen beeinträchtigt. Als Antwort auf diese Herausforderungen postulieren wir, dass ein ideales Langkontext-Bewertungsframework durch drei wesentliche Merkmale gekennzeichnet sein sollte: nahtloser Kontext, kontrollierbare Umgebung und fundierte Bewertung. Diese Studie stellt LongBioBench vor, einen neuartigen Benchmark, der künstlich generierte Biografien als kontrollierte Umgebung zur Bewertung von LCLMs in den Dimensionen Verständnis, logisches Denken und Vertrauenswürdigkeit nutzt. Unsere experimentelle Bewertung, die insgesamt 18 LCLMs umfasst, zeigt, dass die meisten Modelle weiterhin Defizite im semantischen Verständnis und im elementaren logischen Denken über abgerufene Ergebnisse aufweisen und mit zunehmender Kontextlänge weniger vertrauenswürdig sind. Unsere weitere Analyse deutet darauf hin, dass einige Designentscheidungen, die von bestehenden synthetischen Benchmarks verwendet werden, wie kontextuelle Nicht-Kohärenz, numerische Nadeln und das Fehlen von Ablenkern, sie anfällig dafür machen, die Langkontext-Fähigkeiten der Modelle zu testen. Darüber hinaus zeigen wir auch, dass das kontinuierliche Vortraining für Langkontexte in erster Linie die RoPE-Einbettung anpasst, um erweiterte Kontextlängen zu berücksichtigen. Zusammenfassend erreicht LongBioBench im Vergleich zu früheren synthetischen Benchmarks einen besseren Kompromiss zwischen der Nachahmung authentischer Sprachaufgaben und der Aufrechterhaltung der Kontrollierbarkeit und ist hochgradig interpretierbar und konfigurierbar.
English
Existing frameworks for evaluating long-context language models (LCLM) can be
broadly categorized into real-world and synthetic tasks. Despite their utility,
both approaches are accompanied by certain intrinsic limitations. Real-world
tasks are too complex to interpret or characterize and are susceptible to data
contamination. In contrast, synthetic tasks often adopt the
needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the
"needle" and the "haystack" compromises their validity as proxies for realistic
applications. In response to these challenges, we posit that an ideal
long-context evaluation framework should be characterized by three essential
features: seamless context, controllable setting, and
sound evaluation. This study introduces LongBioBench, a
novel benchmark that utilizes artificially generated biographies as a
controlled environment for assessing LCLMs across dimensions of
understanding, reasoning, and trustworthiness.
Our experimental evaluation, which includes 18 LCLMs in total,
demonstrates that most models still exhibit deficiencies in semantic
understanding and elementary reasoning over retrieved results and are less
trustworthy as context length increases. Our further analysis indicates some
design choices employed by existing synthetic benchmarks, such as contextual
non-coherence, numerical needles, and the absence of distractors, rendering
them vulnerable to test the model long-context capabilities. Moreover, we also
reveal that long-context continual pretraining primarily adjusts RoPE embedding
to accommodate extended context lengths. To sum up, compared to previous
synthetic benchmarks, LongBioBench achieves a better trade-off between
mirroring authentic language tasks and maintaining controllability, and is
highly interpretable and configurable.