LOOM-Scope: Ein umfassendes und effizientes Evaluierungsframework für LOng-cOntext-Modelle
LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework
July 7, 2025
papers.authors: Zecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang
cs.AI
papers.abstract
Die Verarbeitung langer Kontexte ist zu einer grundlegenden Fähigkeit für große Sprachmodelle (LLMs) geworden. Um die Leistung von Modellen im Umgang mit langen Kontexten zu bewerten, wurden zahlreiche Benchmark-Tests für die Langkontext-Evaluierung vorgeschlagen. Allerdings führen Unterschiede in den Evaluierungseinstellungen zwischen diesen Benchmarks zu inkonsistenten Ergebnissen, was zuverlässige Vergleiche erschwert. Zudem stellt der hohe Rechenaufwand für die Langkontext-Evaluierung eine erhebliche Hürde für die Community dar, umfassende Bewertungen von Langkontext-Modellen durchzuführen. In diesem Artikel präsentieren wir LOOM-Scope, ein umfassendes und effizientes Framework für die Langkontext-Evaluierung. LOOM-Scope standardisiert die Evaluierungseinstellungen über verschiedene Benchmarks hinweg, unterstützt die Implementierung effizienter Beschleunigungsmethoden für die Langkontext-Inferenz und führt eine ganzheitliche, dennoch leichtgewichtige Benchmark-Suite ein, um Modelle umfassend zu bewerten. Homepage: https://loomscope.github.io
English
Long-context processing has become a fundamental capability for large
language models~(LLMs). To assess model's long-context performance, numerous
long-context evaluation benchmarks have been proposed. However, variations in
evaluation settings across these benchmarks lead to inconsistent results,
making it difficult to draw reliable comparisons. Besides, the high
computational cost of long-context evaluation poses a significant barrier for
the community to conduct comprehensive assessments of long-context models. In
this paper, we propose LOOM-Scope, a comprehensive and efficient framework for
long-context evaluation. LOOM-Scope standardizes evaluation settings across
diverse benchmarks, supports deployment of efficient long-context inference
acceleration methods, and introduces a holistic yet lightweight benchmark suite
to evaluate models comprehensively. Homepage: https://loomscope.github.io