Способны ли ваши LLM на устойчивое рассуждение?Are Your LLMs Capable of Stable Reasoning?
Быстрое развитие крупных языковых моделей (LLM) продемонстрировало значительный прогресс в сложных задачах рассуждения. Однако существует значительное расхождение между результатами на стандартных тестах и реальными приложениями. Мы выявляем эту разницу в основном как следствие текущих протоколов оценки и метрик, которые недостаточно улавливают все возможности LLM, особенно в сложных задачах рассуждения, где важны как точность, так и последовательность. В данной работе вносятся два ключевых вклада. Во-первых, мы представляем G-Pass@k, новую метрику оценки, которая обеспечивает непрерывную оценку производительности модели при многократных попытках выборки, количественно оценивая как потенциал пиковой производительности модели, так и ее стабильность. Во-вторых, мы представляем LiveMathBench, динамический бенчмарк, включающий в себя сложные, современные математические задачи, разработанный для минимизации рисков утечки данных во время оценки. Проведя обширные эксперименты с использованием G-Pass@k на передовых LLM с LiveMathBench, мы предоставляем всесторонние исследования как их максимальных возможностей, так и операционной последовательности. Наши результаты показывают значительное пространство для улучшения "реалистичных" рассуждений LLM, подчеркивая необходимость более надежных методов оценки. Бенчмарк и подробные результаты доступны по ссылке: https://github.com/open-compass/GPassK.