ChatPaper.aiChatPaper

LOOM-Scope: un marco de evaluación integral y eficiente para modelos de contexto largo

LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework

July 7, 2025
Autores: Zecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang
cs.AI

Resumen

El procesamiento de contextos largos se ha convertido en una capacidad fundamental para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Para evaluar el rendimiento de los modelos en contextos largos, se han propuesto numerosos puntos de referencia de evaluación. Sin embargo, las variaciones en los entornos de evaluación entre estos puntos de referencia generan resultados inconsistentes, lo que dificulta realizar comparaciones confiables. Además, el alto costo computacional de la evaluación de contextos largos representa una barrera significativa para que la comunidad lleve a cabo evaluaciones exhaustivas de modelos de contextos largos. En este artículo, proponemos LOOM-Scope, un marco integral y eficiente para la evaluación de contextos largos. LOOM-Scope estandariza los entornos de evaluación en diversos puntos de referencia, permite la implementación de métodos eficientes de aceleración de inferencia en contextos largos e introduce un conjunto de puntos de referencia holístico pero ligero para evaluar los modelos de manera exhaustiva. Página web: https://loomscope.github.io.
English
Long-context processing has become a fundamental capability for large language models~(LLMs). To assess model's long-context performance, numerous long-context evaluation benchmarks have been proposed. However, variations in evaluation settings across these benchmarks lead to inconsistent results, making it difficult to draw reliable comparisons. Besides, the high computational cost of long-context evaluation poses a significant barrier for the community to conduct comprehensive assessments of long-context models. In this paper, we propose LOOM-Scope, a comprehensive and efficient framework for long-context evaluation. LOOM-Scope standardizes evaluation settings across diverse benchmarks, supports deployment of efficient long-context inference acceleration methods, and introduces a holistic yet lightweight benchmark suite to evaluate models comprehensively. Homepage: https://loomscope.github.io
PDF91July 9, 2025