ChatPaper.aiChatPaper

Een Controleerbare Evaluatie van Taalmodellen voor Lange Contexten

A Controllable Examination for Long-Context Language Models

June 3, 2025
Auteurs: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI

Samenvatting

Bestaande frameworks voor het evalueren van lang-context taalmodelen (LCLM) kunnen grofweg worden onderverdeeld in real-world en synthetische taken. Ondanks hun nut, gaan beide benaderingen gepaard met bepaalde intrinsieke beperkingen. Real-world taken zijn te complex om te interpreteren of te karakteriseren en zijn gevoelig voor datavervuiling. Daarentegen nemen synthetische taken vaak het naald-in-de-hooiberg (NIAH) formaat aan, waarbij een gebrek aan samenhang tussen de "naald" en de "hooiberg" hun geldigheid als proxy's voor realistische toepassingen in gevaar brengt. Als reactie op deze uitdagingen stellen wij dat een ideaal lang-context evaluatieframework gekenmerkt zou moeten worden door drie essentiële kenmerken: naadloze context, controleerbare instelling en solide evaluatie. Deze studie introduceert LongBioBench, een nieuw benchmark dat kunstmatig gegenereerde biografieën gebruikt als een gecontroleerde omgeving voor het beoordelen van LCLM's op het gebied van begrip, redenering en betrouwbaarheid. Onze experimentele evaluatie, die in totaal 18 LCLM's omvat, toont aan dat de meeste modellen nog steeds tekortkomingen vertonen in semantisch begrip en elementaire redenering over opgehaalde resultaten en minder betrouwbaar zijn naarmate de contextlengte toeneemt. Onze verdere analyse geeft aan dat sommige ontwerpkeuzes die door bestaande synthetische benchmarks worden gebruikt, zoals contextuele niet-samenhang, numerieke naalden en het ontbreken van afleiders, hen kwetsbaar maken voor het testen van de lang-context capaciteiten van het model. Bovendien onthullen we ook dat lang-context voortgezette pretraining voornamelijk RoPE-embedding aanpast om uitgebreide contextlengtes te accommoderen. Samengevat, in vergelijking met eerdere synthetische benchmarks, bereikt LongBioBench een betere balans tussen het weerspiegelen van authentieke taaltaken en het behouden van controleerbaarheid, en is het zeer interpreteerbaar en configureerbaar.
English
Existing frameworks for evaluating long-context language models (LCLM) can be broadly categorized into real-world and synthetic tasks. Despite their utility, both approaches are accompanied by certain intrinsic limitations. Real-world tasks are too complex to interpret or characterize and are susceptible to data contamination. In contrast, synthetic tasks often adopt the needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the "needle" and the "haystack" compromises their validity as proxies for realistic applications. In response to these challenges, we posit that an ideal long-context evaluation framework should be characterized by three essential features: seamless context, controllable setting, and sound evaluation. This study introduces LongBioBench, a novel benchmark that utilizes artificially generated biographies as a controlled environment for assessing LCLMs across dimensions of understanding, reasoning, and trustworthiness. Our experimental evaluation, which includes 18 LCLMs in total, demonstrates that most models still exhibit deficiencies in semantic understanding and elementary reasoning over retrieved results and are less trustworthy as context length increases. Our further analysis indicates some design choices employed by existing synthetic benchmarks, such as contextual non-coherence, numerical needles, and the absence of distractors, rendering them vulnerable to test the model long-context capabilities. Moreover, we also reveal that long-context continual pretraining primarily adjusts RoPE embedding to accommodate extended context lengths. To sum up, compared to previous synthetic benchmarks, LongBioBench achieves a better trade-off between mirroring authentic language tasks and maintaining controllability, and is highly interpretable and configurable.
PDF322June 5, 2025