ChatPaper.aiChatPaper

LOOM-Scope : un cadre d'évaluation complet et efficace des modèles à contexte long (LOng-cOntext Model)

LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework

July 7, 2025
papers.authors: Zecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang
cs.AI

papers.abstract

Le traitement de contextes longs est devenu une capacité fondamentale pour les grands modèles de langage (LLMs). Pour évaluer les performances des modèles sur des contextes longs, de nombreux benchmarks d'évaluation ont été proposés. Cependant, les variations dans les paramètres d'évaluation entre ces benchmarks entraînent des résultats incohérents, rendant difficile la réalisation de comparaisons fiables. Par ailleurs, le coût computationnel élevé de l'évaluation des contextes longs constitue un obstacle majeur pour la communauté, limitant la possibilité de mener des évaluations complètes des modèles de contextes longs. Dans cet article, nous proposons LOOM-Scope, un cadre complet et efficace pour l'évaluation des contextes longs. LOOM-Scope standardise les paramètres d'évaluation à travers divers benchmarks, prend en charge le déploiement de méthodes d'accélération efficaces pour l'inférence de contextes longs, et introduit une suite de benchmarks holistique mais légère pour évaluer les modèles de manière exhaustive. Page d'accueil : https://loomscope.github.io
English
Long-context processing has become a fundamental capability for large language models~(LLMs). To assess model's long-context performance, numerous long-context evaluation benchmarks have been proposed. However, variations in evaluation settings across these benchmarks lead to inconsistent results, making it difficult to draw reliable comparisons. Besides, the high computational cost of long-context evaluation poses a significant barrier for the community to conduct comprehensive assessments of long-context models. In this paper, we propose LOOM-Scope, a comprehensive and efficient framework for long-context evaluation. LOOM-Scope standardizes evaluation settings across diverse benchmarks, supports deployment of efficient long-context inference acceleration methods, and introduces a holistic yet lightweight benchmark suite to evaluate models comprehensively. Homepage: https://loomscope.github.io
PDF91July 9, 2025