LIMOPro: Уточнение рассуждений для эффективного и результативного масштабирования во время тестирования

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению благодаря подходам масштабирования во время тестирования, особенно при тонкой настройке с использованием данных цепочки рассуждений (CoT), извлеченных из более мощных моделей для сложных рассуждений (LRM). Однако эти цепочки рассуждений часто содержат избыточные элементы, которые отражают человеческий подход к решению задач, классифицируемые как прогрессивное рассуждение (основной путь разработки решения) и функциональные элементы (процессы проверки, альтернативные подходы к решению и исправление ошибок). Хотя прогрессивное рассуждение является ключевым, функциональные элементы значительно увеличивают вычислительные затраты во время тестового вывода. Мы представляем PIR (Perplexity-based Importance Refinement) — принципиальную структуру, которая количественно оценивает важность каждого шага рассуждения на основе его влияния на уверенность в предсказании ответа. PIR систематически идентифицирует и выборочно удаляет только низкозначимые функциональные шаги, сохраняя компоненты прогрессивного рассуждения, создавая оптимизированные обучающие данные, которые сохраняют целостность основного пути решения, уменьшая избыточность. Модели, настроенные на данных, оптимизированных с помощью PIR, демонстрируют превосходные свойства масштабирования во время тестирования, генерируя более лаконичные цепочки рассуждений при одновременном повышении точности (+0,9\% до +6,6\%) с существенным сокращением использования токенов (-3\% до -41\%) на сложных тестах на рассуждение (AIME, AMC и GPQA Diamond). Наш подход демонстрирует высокую обобщаемость для различных размеров моделей, источников данных и бюджетов токенов, предлагая практическое решение для развертывания LLM с возможностями рассуждения в сценариях, где важны эффективное масштабирование во время тестирования, время отклика и вычислительная эффективность.

English

Large language models (LLMs) have demonstrated remarkable reasoning capabilities through test-time scaling approaches, particularly when fine-tuned with chain-of-thought (CoT) data distilled from more powerful large reasoning models (LRMs). However, these reasoning chains often contain verbose elements that mirror human problem-solving, categorized as progressive reasoning (the essential solution development path) and functional elements (verification processes, alternative solution approaches, and error corrections). While progressive reasoning is crucial, the functional elements significantly increase computational demands during test-time inference. We introduce PIR (Perplexity-based Importance Refinement), a principled framework that quantitatively evaluates the importance of each reasoning step based on its impact on answer prediction confidence. PIR systematically identifies and selectively prunes only low-importance functional steps while preserving progressive reasoning components, creating optimized training data that maintains the integrity of the core solution path while reducing verbosity. Models fine-tuned on PIR-optimized data exhibit superior test-time scaling properties, generating more concise reasoning chains while achieving improved accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to -41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond). Our approach demonstrates strong generalizability across different model sizes, data sources, and token budgets, offering a practical solution for deploying reasoning-capable LLMs in scenarios where efficient test-time scaling, response time, and computational efficiency are valuable constraints.

LIMOPro: Уточнение рассуждений для эффективного и результативного масштабирования во время тестирования

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

Аннотация

Support