Weniger ist mehr: Verbesserung des LLM-Denkens durch minimalen Eingriff zur Testzeit
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
October 15, 2025
papers.authors: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) konzentrierten sich auf das Skalieren zur Laufzeit, um das logische Denken durch erhöhte Inferenzberechnungen zu verbessern, oft jedoch auf Kosten der Effizienz. Wir untersuchen das Laufzeitverhalten erneut und entdecken ein einfaches, aber bisher wenig erforschtes Phänomen: Die Unsicherheit beim logischen Denken ist stark lokalisiert – nur eine kleine Teilmenge von Tokens mit hoher Entropie beeinflusst die Korrektheit der Ausgabe maßgeblich. Motiviert durch diese Erkenntnis schlagen wir Minimal Test-Time Intervention (MTI) vor, ein trainingsfreies Framework, das die Genauigkeit und Stabilität des logischen Denkens mit minimalem Aufwand verbessert. MTI umfasst: (i) Selektive CFG-Intervention, bei der Classifier-Free Guidance nur an unsicheren Positionen angewendet wird; und (ii) Leichtgewichtige Negative-Prompt-Guidance, die den KV-Cache des Hauptmodells wiederverwendet, um eine effiziente unbedingte Dekodierung zu approximieren. MTI erzielt konsistente Verbesserungen bei allgemeinen, Programmier- und STEM-Aufgaben – z. B. eine durchschnittliche Steigerung von +1,35 % auf acht Benchmarks für Qwen3-8B-Base und +5 % auf AIME2024 mit Qwen3-32B-Reasoning – bei gleichbleibend hoher Effizienz.
English
Recent progress in large language models (LLMs) has focused on test-time
scaling to improve reasoning via increased inference computation, but often at
the cost of efficiency. We revisit test-time behavior and uncover a simple yet
underexplored phenomenon: reasoning uncertainty is highly localized-only a
small subset of high-entropy tokens dominantly affects output correctness.
Motivated by this, we propose Minimal Test-Time Intervention (MTI), a
training-free framework that enhances reasoning accuracy and stability with
minimal overhead. MTI includes: (i) Selective CFG intervention, applying
classifier-free guidance only at uncertain positions; and (ii) Lightweight
negative-prompt guidance, reusing the main model's KV cache to approximate
unconditional decoding efficiently. MTI yields consistent gains across general,
coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for
Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining
highly efficient.