Меньше — значит больше: улучшение рассуждений больших языковых моделей с минимальным вмешательством во время тестирования

Аннотация

Недавние достижения в области больших языковых моделей (LLM) были сосредоточены на масштабировании во время тестирования для улучшения способности к рассуждению за счет увеличения вычислительных ресурсов на этапе вывода, однако часто это происходит в ущерб эффективности. Мы пересматриваем поведение моделей на этапе тестирования и обнаруживаем простой, но малоизученный феномен: неопределенность в рассуждениях является высоко локализованной — лишь небольшое подмножество токенов с высокой энтропией существенно влияет на корректность выходных данных. Вдохновленные этим, мы предлагаем Минимальное Вмешательство на Этапе Тестирования (MTI), бесплатную от обучения структуру, которая повышает точность и стабильность рассуждений с минимальными накладными расходами. MTI включает: (i) Селективное вмешательство CFG, применяя классификатор-фри гайдинг только в неопределенных позициях; и (ii) Легковесное негативное подсказывание, повторно используя кэш KV основной модели для эффективного приближения безусловного декодирования. MTI демонстрирует стабильные улучшения в общих, кодировочных и STEM задачах — например, среднее улучшение на 1.35% на восьми бенчмарках для Qwen3-8B-Base и на 5% на AIME2024 с использованием Qwen3-32B-Reasoning, сохраняя при этом высокую эффективность.

English

Recent progress in large language models (LLMs) has focused on test-time scaling to improve reasoning via increased inference computation, but often at the cost of efficiency. We revisit test-time behavior and uncover a simple yet underexplored phenomenon: reasoning uncertainty is highly localized-only a small subset of high-entropy tokens dominantly affects output correctness. Motivated by this, we propose Minimal Test-Time Intervention (MTI), a training-free framework that enhances reasoning accuracy and stability with minimal overhead. MTI includes: (i) Selective CFG intervention, applying classifier-free guidance only at uncertain positions; and (ii) Lightweight negative-prompt guidance, reusing the main model's KV cache to approximate unconditional decoding efficiently. MTI yields consistent gains across general, coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining highly efficient.

Меньше — значит больше: улучшение рассуждений больших языковых моделей с минимальным вмешательством во время тестирования

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Аннотация

Support