Uma Avaliação Controlável para Modelos de Linguagem de Contexto Longo
A Controllable Examination for Long-Context Language Models
June 3, 2025
Autores: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI
Resumo
Os frameworks existentes para avaliar modelos de linguagem de contexto longo (LCLM) podem ser amplamente categorizados em tarefas do mundo real e tarefas sintéticas. Apesar de sua utilidade, ambas as abordagens são acompanhadas por certas limitações intrínsecas. As tarefas do mundo real são muito complexas para interpretar ou caracterizar e são suscetíveis à contaminação de dados. Em contraste, as tarefas sintéticas frequentemente adotam o formato "agulha no palheiro" (NIAH), onde a falta de coerência entre a "agulha" e o "palheiro" compromete sua validade como proxies para aplicações realistas. Em resposta a esses desafios, propomos que um framework ideal de avaliação de contexto longo deve ser caracterizado por três características essenciais: contexto contínuo, configuração controlável e avaliação sólida. Este estudo introduz o LongBioBench, um novo benchmark que utiliza biografias geradas artificialmente como um ambiente controlado para avaliar LCLMs nas dimensões de compreensão, raciocínio e confiabilidade. Nossa avaliação experimental, que inclui 18 LCLMs no total, demonstra que a maioria dos modelos ainda apresenta deficiências na compreensão semântica e no raciocínio elementar sobre os resultados recuperados e são menos confiáveis à medida que o comprimento do contexto aumenta. Nossa análise adicional indica que algumas escolhas de design empregadas por benchmarks sintéticos existentes, como a não coerência contextual, agulhas numéricas e a ausência de distratores, os tornam vulneráveis para testar as capacidades de contexto longo dos modelos. Além disso, também revelamos que o pré-treinamento contínuo de contexto longo ajusta principalmente a incorporação RoPE para acomodar comprimentos de contexto estendidos. Em resumo, comparado a benchmarks sintéticos anteriores, o LongBioBench alcança um melhor equilíbrio entre espelhar tarefas autênticas de linguagem e manter a controlabilidade, sendo altamente interpretável e configurável.
English
Existing frameworks for evaluating long-context language models (LCLM) can be
broadly categorized into real-world and synthetic tasks. Despite their utility,
both approaches are accompanied by certain intrinsic limitations. Real-world
tasks are too complex to interpret or characterize and are susceptible to data
contamination. In contrast, synthetic tasks often adopt the
needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the
"needle" and the "haystack" compromises their validity as proxies for realistic
applications. In response to these challenges, we posit that an ideal
long-context evaluation framework should be characterized by three essential
features: seamless context, controllable setting, and
sound evaluation. This study introduces LongBioBench, a
novel benchmark that utilizes artificially generated biographies as a
controlled environment for assessing LCLMs across dimensions of
understanding, reasoning, and trustworthiness.
Our experimental evaluation, which includes 18 LCLMs in total,
demonstrates that most models still exhibit deficiencies in semantic
understanding and elementary reasoning over retrieved results and are less
trustworthy as context length increases. Our further analysis indicates some
design choices employed by existing synthetic benchmarks, such as contextual
non-coherence, numerical needles, and the absence of distractors, rendering
them vulnerable to test the model long-context capabilities. Moreover, we also
reveal that long-context continual pretraining primarily adjusts RoPE embedding
to accommodate extended context lengths. To sum up, compared to previous
synthetic benchmarks, LongBioBench achieves a better trade-off between
mirroring authentic language tasks and maintaining controllability, and is
highly interpretable and configurable.