Una Evaluación Controlable para Modelos de Lenguaje de Contexto Extendido
A Controllable Examination for Long-Context Language Models
June 3, 2025
Autores: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI
Resumen
Los marcos existentes para evaluar modelos de lenguaje de contexto largo (LCLM) pueden clasificarse en tareas del mundo real y tareas sintéticas. A pesar de su utilidad, ambos enfoques presentan ciertas limitaciones intrínsecas. Las tareas del mundo real son demasiado complejas para interpretar o caracterizar y son susceptibles a la contaminación de datos. En contraste, las tareas sintéticas suelen adoptar el formato de "aguja en un pajar" (NIAH), donde la falta de coherencia entre la "aguja" y el "pajar" compromete su validez como sustitutos de aplicaciones realistas. En respuesta a estos desafíos, proponemos que un marco ideal de evaluación de contexto largo debería caracterizarse por tres características esenciales: contexto fluido, configuración controlable y evaluación sólida. Este estudio presenta LongBioBench, un nuevo punto de referencia que utiliza biografías generadas artificialmente como un entorno controlado para evaluar LCLM en dimensiones de comprensión, razonamiento y confiabilidad. Nuestra evaluación experimental, que incluye un total de 18 LCLM, demuestra que la mayoría de los modelos aún presentan deficiencias en la comprensión semántica y el razonamiento básico sobre los resultados recuperados, y son menos confiables a medida que aumenta la longitud del contexto. Nuestro análisis adicional indica que algunas decisiones de diseño empleadas por los puntos de referencia sintéticos existentes, como la no coherencia contextual, agujas numéricas y la ausencia de distractores, los hacen vulnerables para probar las capacidades de contexto largo del modelo. Además, también revelamos que el preentrenamiento continuo de contexto largo ajusta principalmente la incrustación RoPE para acomodar longitudes de contexto extendidas. En resumen, en comparación con los puntos de referencia sintéticos anteriores, LongBioBench logra un mejor equilibrio entre reflejar tareas de lenguaje auténticas y mantener la controlabilidad, y es altamente interpretable y configurable.
English
Existing frameworks for evaluating long-context language models (LCLM) can be
broadly categorized into real-world and synthetic tasks. Despite their utility,
both approaches are accompanied by certain intrinsic limitations. Real-world
tasks are too complex to interpret or characterize and are susceptible to data
contamination. In contrast, synthetic tasks often adopt the
needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the
"needle" and the "haystack" compromises their validity as proxies for realistic
applications. In response to these challenges, we posit that an ideal
long-context evaluation framework should be characterized by three essential
features: seamless context, controllable setting, and
sound evaluation. This study introduces LongBioBench, a
novel benchmark that utilizes artificially generated biographies as a
controlled environment for assessing LCLMs across dimensions of
understanding, reasoning, and trustworthiness.
Our experimental evaluation, which includes 18 LCLMs in total,
demonstrates that most models still exhibit deficiencies in semantic
understanding and elementary reasoning over retrieved results and are less
trustworthy as context length increases. Our further analysis indicates some
design choices employed by existing synthetic benchmarks, such as contextual
non-coherence, numerical needles, and the absence of distractors, rendering
them vulnerable to test the model long-context capabilities. Moreover, we also
reveal that long-context continual pretraining primarily adjusts RoPE embedding
to accommodate extended context lengths. To sum up, compared to previous
synthetic benchmarks, LongBioBench achieves a better trade-off between
mirroring authentic language tasks and maintaining controllability, and is
highly interpretable and configurable.