Меньше — значит больше: улучшение рассуждений больших языковых моделей с минимальным вмешательством во время тестирования
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
October 15, 2025
Авторы: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
Аннотация
Недавние достижения в области больших языковых моделей (LLM) были сосредоточены на масштабировании во время тестирования для улучшения способности к рассуждению за счет увеличения вычислительных ресурсов на этапе вывода, однако часто это происходит в ущерб эффективности. Мы пересматриваем поведение моделей на этапе тестирования и обнаруживаем простой, но малоизученный феномен: неопределенность в рассуждениях является высоко локализованной — лишь небольшое подмножество токенов с высокой энтропией существенно влияет на корректность выходных данных. Вдохновленные этим, мы предлагаем Минимальное Вмешательство на Этапе Тестирования (MTI), бесплатную от обучения структуру, которая повышает точность и стабильность рассуждений с минимальными накладными расходами. MTI включает: (i) Селективное вмешательство CFG, применяя классификатор-фри гайдинг только в неопределенных позициях; и (ii) Легковесное негативное подсказывание, повторно используя кэш KV основной модели для эффективного приближения безусловного декодирования. MTI демонстрирует стабильные улучшения в общих, кодировочных и STEM задачах — например, среднее улучшение на 1.35% на восьми бенчмарках для Qwen3-8B-Base и на 5% на AIME2024 с использованием Qwen3-32B-Reasoning, сохраняя при этом высокую эффективность.
English
Recent progress in large language models (LLMs) has focused on test-time
scaling to improve reasoning via increased inference computation, but often at
the cost of efficiency. We revisit test-time behavior and uncover a simple yet
underexplored phenomenon: reasoning uncertainty is highly localized-only a
small subset of high-entropy tokens dominantly affects output correctness.
Motivated by this, we propose Minimal Test-Time Intervention (MTI), a
training-free framework that enhances reasoning accuracy and stability with
minimal overhead. MTI includes: (i) Selective CFG intervention, applying
classifier-free guidance only at uncertain positions; and (ii) Lightweight
negative-prompt guidance, reusing the main model's KV cache to approximate
unconditional decoding efficiently. MTI yields consistent gains across general,
coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for
Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining
highly efficient.