LOOM-Scope : un cadre d'évaluation complet et efficace des modèles à contexte long (LOng-cOntext Model)
LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework
July 7, 2025
papers.authors: Zecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang
cs.AI
papers.abstract
Le traitement de contextes longs est devenu une capacité fondamentale pour les grands modèles de langage (LLMs). Pour évaluer les performances des modèles sur des contextes longs, de nombreux benchmarks d'évaluation ont été proposés. Cependant, les variations dans les paramètres d'évaluation entre ces benchmarks entraînent des résultats incohérents, rendant difficile la réalisation de comparaisons fiables. Par ailleurs, le coût computationnel élevé de l'évaluation des contextes longs constitue un obstacle majeur pour la communauté, limitant la possibilité de mener des évaluations complètes des modèles de contextes longs. Dans cet article, nous proposons LOOM-Scope, un cadre complet et efficace pour l'évaluation des contextes longs. LOOM-Scope standardise les paramètres d'évaluation à travers divers benchmarks, prend en charge le déploiement de méthodes d'accélération efficaces pour l'inférence de contextes longs, et introduit une suite de benchmarks holistique mais légère pour évaluer les modèles de manière exhaustive. Page d'accueil : https://loomscope.github.io
English
Long-context processing has become a fundamental capability for large
language models~(LLMs). To assess model's long-context performance, numerous
long-context evaluation benchmarks have been proposed. However, variations in
evaluation settings across these benchmarks lead to inconsistent results,
making it difficult to draw reliable comparisons. Besides, the high
computational cost of long-context evaluation poses a significant barrier for
the community to conduct comprehensive assessments of long-context models. In
this paper, we propose LOOM-Scope, a comprehensive and efficient framework for
long-context evaluation. LOOM-Scope standardizes evaluation settings across
diverse benchmarks, supports deployment of efficient long-context inference
acceleration methods, and introduces a holistic yet lightweight benchmark suite
to evaluate models comprehensively. Homepage: https://loomscope.github.io