ChatPaper.aiChatPaper

Un Esame Controllabile per Modelli Linguistici a Lungo Contesto

A Controllable Examination for Long-Context Language Models

June 3, 2025
Autori: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI

Abstract

I framework esistenti per valutare i modelli linguistici a contesto lungo (LCLM) possono essere ampiamente categorizzati in task reali e sintetici. Nonostante la loro utilità, entrambi gli approcci presentano alcune limitazioni intrinseche. I task reali sono troppo complessi da interpretare o caratterizzare e sono suscettibili a contaminazione dei dati. Al contrario, i task sintetici spesso adottano il formato "ago nel pagliaio" (NIAH), in cui la mancanza di coerenza tra l'"ago" e il "pagliaio" compromette la loro validità come proxy per applicazioni realistiche. In risposta a queste sfide, proponiamo che un framework ideale per la valutazione a contesto lungo dovrebbe essere caratterizzato da tre caratteristiche essenziali: contesto senza soluzione di continuità, impostazione controllabile e valutazione solida. Questo studio introduce LongBioBench, un nuovo benchmark che utilizza biografie generate artificialmente come ambiente controllato per valutare gli LCLM nelle dimensioni di comprensione, ragionamento e affidabilità. La nostra valutazione sperimentale, che include un totale di 18 LCLM, dimostra che la maggior parte dei modelli presenta ancora carenze nella comprensione semantica e nel ragionamento elementare sui risultati recuperati e sono meno affidabili all'aumentare della lunghezza del contesto. La nostra ulteriore analisi indica che alcune scelte progettuali impiegate dai benchmark sintetici esistenti, come la non-coerenza contestuale, gli aghi numerici e l'assenza di distrattori, li rendono vulnerabili nel testare le capacità a contesto lungo dei modelli. Inoltre, riveliamo anche che il pretraining continuo a contesto lungo regola principalmente l'embedding RoPE per adattarsi alle lunghezze del contesto esteso. In sintesi, rispetto ai precedenti benchmark sintetici, LongBioBench raggiunge un migliore compromesso tra il rispecchiare task linguistici autentici e il mantenere la controllabilità, ed è altamente interpretabile e configurabile.
English
Existing frameworks for evaluating long-context language models (LCLM) can be broadly categorized into real-world and synthetic tasks. Despite their utility, both approaches are accompanied by certain intrinsic limitations. Real-world tasks are too complex to interpret or characterize and are susceptible to data contamination. In contrast, synthetic tasks often adopt the needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the "needle" and the "haystack" compromises their validity as proxies for realistic applications. In response to these challenges, we posit that an ideal long-context evaluation framework should be characterized by three essential features: seamless context, controllable setting, and sound evaluation. This study introduces LongBioBench, a novel benchmark that utilizes artificially generated biographies as a controlled environment for assessing LCLMs across dimensions of understanding, reasoning, and trustworthiness. Our experimental evaluation, which includes 18 LCLMs in total, demonstrates that most models still exhibit deficiencies in semantic understanding and elementary reasoning over retrieved results and are less trustworthy as context length increases. Our further analysis indicates some design choices employed by existing synthetic benchmarks, such as contextual non-coherence, numerical needles, and the absence of distractors, rendering them vulnerable to test the model long-context capabilities. Moreover, we also reveal that long-context continual pretraining primarily adjusts RoPE embedding to accommodate extended context lengths. To sum up, compared to previous synthetic benchmarks, LongBioBench achieves a better trade-off between mirroring authentic language tasks and maintaining controllability, and is highly interpretable and configurable.
PDF332June 5, 2025