ChatPaper.aiChatPaper

LOOM-Scope: Ein umfassendes und effizientes Evaluierungsframework für LOng-cOntext-Modelle

LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework

July 7, 2025
papers.authors: Zecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang
cs.AI

papers.abstract

Die Verarbeitung langer Kontexte ist zu einer grundlegenden Fähigkeit für große Sprachmodelle (LLMs) geworden. Um die Leistung von Modellen im Umgang mit langen Kontexten zu bewerten, wurden zahlreiche Benchmark-Tests für die Langkontext-Evaluierung vorgeschlagen. Allerdings führen Unterschiede in den Evaluierungseinstellungen zwischen diesen Benchmarks zu inkonsistenten Ergebnissen, was zuverlässige Vergleiche erschwert. Zudem stellt der hohe Rechenaufwand für die Langkontext-Evaluierung eine erhebliche Hürde für die Community dar, umfassende Bewertungen von Langkontext-Modellen durchzuführen. In diesem Artikel präsentieren wir LOOM-Scope, ein umfassendes und effizientes Framework für die Langkontext-Evaluierung. LOOM-Scope standardisiert die Evaluierungseinstellungen über verschiedene Benchmarks hinweg, unterstützt die Implementierung effizienter Beschleunigungsmethoden für die Langkontext-Inferenz und führt eine ganzheitliche, dennoch leichtgewichtige Benchmark-Suite ein, um Modelle umfassend zu bewerten. Homepage: https://loomscope.github.io
English
Long-context processing has become a fundamental capability for large language models~(LLMs). To assess model's long-context performance, numerous long-context evaluation benchmarks have been proposed. However, variations in evaluation settings across these benchmarks lead to inconsistent results, making it difficult to draw reliable comparisons. Besides, the high computational cost of long-context evaluation poses a significant barrier for the community to conduct comprehensive assessments of long-context models. In this paper, we propose LOOM-Scope, a comprehensive and efficient framework for long-context evaluation. LOOM-Scope standardizes evaluation settings across diverse benchmarks, supports deployment of efficient long-context inference acceleration methods, and introduces a holistic yet lightweight benchmark suite to evaluate models comprehensively. Homepage: https://loomscope.github.io
PDF91July 9, 2025