Minder is Meer: Verbetering van LLM-redenering met Minimale Interventie tijdens Testen
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
October 15, 2025
Auteurs: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLMs) heeft zich gericht op schaling tijdens de testfase om redeneren te verbeteren via verhoogde inferentieberekening, maar vaak ten koste van efficiëntie. We herzien het gedrag tijdens de testfase en ontdekken een eenvoudig maar onderbelicht fenomeen: onzekerheid bij het redeneren is sterk gelokaliseerd—slechts een kleine subset van tokens met hoge entropie beïnvloedt de uitvoercorrectheid dominant. Gemotiveerd door dit inzicht stellen we Minimal Test-Time Intervention (MTI) voor, een trainingsvrij raamwerk dat de nauwkeurigheid en stabiliteit van redeneren verbetert met minimale overhead. MTI omvat: (i) Selectieve CFG-interventie, waarbij classifier-free guidance alleen wordt toegepast op onzekere posities; en (ii) Lichtgewicht negatieve-prompt guidance, waarbij de KV-cache van het hoofdmodel wordt hergebruikt om onvoorwaardelijke decodering efficiënt te benaderen. MTI levert consistente verbeteringen op bij algemene, programmeer- en STEM-taken—bijvoorbeeld een gemiddelde verbetering van +1,35% op acht benchmarks voor Qwen3-8B-Base en +5% op AIME2024 met Qwen3-32B-Reasoning—terwijl het zeer efficiënt blijft.
English
Recent progress in large language models (LLMs) has focused on test-time
scaling to improve reasoning via increased inference computation, but often at
the cost of efficiency. We revisit test-time behavior and uncover a simple yet
underexplored phenomenon: reasoning uncertainty is highly localized-only a
small subset of high-entropy tokens dominantly affects output correctness.
Motivated by this, we propose Minimal Test-Time Intervention (MTI), a
training-free framework that enhances reasoning accuracy and stability with
minimal overhead. MTI includes: (i) Selective CFG intervention, applying
classifier-free guidance only at uncertain positions; and (ii) Lightweight
negative-prompt guidance, reusing the main model's KV cache to approximate
unconditional decoding efficiently. MTI yields consistent gains across general,
coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for
Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining
highly efficient.