LIMOPro: Уточнение рассуждений для эффективного и результативного масштабирования во время тестирования
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling
May 25, 2025
Авторы: Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению благодаря подходам масштабирования во время тестирования, особенно при тонкой настройке с использованием данных цепочки рассуждений (CoT), извлеченных из более мощных моделей для сложных рассуждений (LRM). Однако эти цепочки рассуждений часто содержат избыточные элементы, которые отражают человеческий подход к решению задач, классифицируемые как прогрессивное рассуждение (основной путь разработки решения) и функциональные элементы (процессы проверки, альтернативные подходы к решению и исправление ошибок). Хотя прогрессивное рассуждение является ключевым, функциональные элементы значительно увеличивают вычислительные затраты во время тестового вывода. Мы представляем PIR (Perplexity-based Importance Refinement) — принципиальную структуру, которая количественно оценивает важность каждого шага рассуждения на основе его влияния на уверенность в предсказании ответа. PIR систематически идентифицирует и выборочно удаляет только низкозначимые функциональные шаги, сохраняя компоненты прогрессивного рассуждения, создавая оптимизированные обучающие данные, которые сохраняют целостность основного пути решения, уменьшая избыточность. Модели, настроенные на данных, оптимизированных с помощью PIR, демонстрируют превосходные свойства масштабирования во время тестирования, генерируя более лаконичные цепочки рассуждений при одновременном повышении точности (+0,9\% до +6,6\%) с существенным сокращением использования токенов (-3\% до -41\%) на сложных тестах на рассуждение (AIME, AMC и GPQA Diamond). Наш подход демонстрирует высокую обобщаемость для различных размеров моделей, источников данных и бюджетов токенов, предлагая практическое решение для развертывания LLM с возможностями рассуждения в сценариях, где важны эффективное масштабирование во время тестирования, время отклика и вычислительная эффективность.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities through test-time scaling approaches, particularly when fine-tuned
with chain-of-thought (CoT) data distilled from more powerful large reasoning
models (LRMs). However, these reasoning chains often contain verbose elements
that mirror human problem-solving, categorized as progressive reasoning (the
essential solution development path) and functional elements (verification
processes, alternative solution approaches, and error corrections). While
progressive reasoning is crucial, the functional elements significantly
increase computational demands during test-time inference. We introduce PIR
(Perplexity-based Importance Refinement), a principled framework that
quantitatively evaluates the importance of each reasoning step based on its
impact on answer prediction confidence. PIR systematically identifies and
selectively prunes only low-importance functional steps while preserving
progressive reasoning components, creating optimized training data that
maintains the integrity of the core solution path while reducing verbosity.
Models fine-tuned on PIR-optimized data exhibit superior test-time scaling
properties, generating more concise reasoning chains while achieving improved
accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to
-41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond).
Our approach demonstrates strong generalizability across different model sizes,
data sources, and token budgets, offering a practical solution for deploying
reasoning-capable LLMs in scenarios where efficient test-time scaling, response
time, and computational efficiency are valuable constraints.Summary
AI-Generated Summary