ChatPaper.aiChatPaper

LOOM-Scope: всеобъемлющая и эффективная система оценки моделей с длинным контекстом

LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework

July 7, 2025
Авторы: Zecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang
cs.AI

Аннотация

Обработка длинных контекстов стала фундаментальной способностью для крупных языковых моделей (LLM). Для оценки производительности моделей на длинных контекстах было предложено множество бенчмарков. Однако различия в настройках оценки между этими бенчмарками приводят к неоднозначным результатам, что затрудняет проведение надежных сравнений. Кроме того, высокая вычислительная стоимость оценки длинных контекстов создает значительные препятствия для сообщества в проведении всестороннего анализа таких моделей. В данной статье мы представляем LOOM-Scope — комплексную и эффективную платформу для оценки длинных контекстов. LOOM-Scope стандартизирует настройки оценки для различных бенчмарков, поддерживает внедрение методов ускорения вывода для длинных контекстов и предлагает универсальный, но легковесный набор бенчмарков для всесторонней оценки моделей. Домашняя страница: https://loomscope.github.io
English
Long-context processing has become a fundamental capability for large language models~(LLMs). To assess model's long-context performance, numerous long-context evaluation benchmarks have been proposed. However, variations in evaluation settings across these benchmarks lead to inconsistent results, making it difficult to draw reliable comparisons. Besides, the high computational cost of long-context evaluation poses a significant barrier for the community to conduct comprehensive assessments of long-context models. In this paper, we propose LOOM-Scope, a comprehensive and efficient framework for long-context evaluation. LOOM-Scope standardizes evaluation settings across diverse benchmarks, supports deployment of efficient long-context inference acceleration methods, and introduces a holistic yet lightweight benchmark suite to evaluate models comprehensively. Homepage: https://loomscope.github.io
PDF91July 9, 2025