Weniger ist mehr: Verbesserung des LLM-Denkens durch minimalen Eingriff zur Testzeit

papers.abstract

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) konzentrierten sich auf das Skalieren zur Laufzeit, um das logische Denken durch erhöhte Inferenzberechnungen zu verbessern, oft jedoch auf Kosten der Effizienz. Wir untersuchen das Laufzeitverhalten erneut und entdecken ein einfaches, aber bisher wenig erforschtes Phänomen: Die Unsicherheit beim logischen Denken ist stark lokalisiert – nur eine kleine Teilmenge von Tokens mit hoher Entropie beeinflusst die Korrektheit der Ausgabe maßgeblich. Motiviert durch diese Erkenntnis schlagen wir Minimal Test-Time Intervention (MTI) vor, ein trainingsfreies Framework, das die Genauigkeit und Stabilität des logischen Denkens mit minimalem Aufwand verbessert. MTI umfasst: (i) Selektive CFG-Intervention, bei der Classifier-Free Guidance nur an unsicheren Positionen angewendet wird; und (ii) Leichtgewichtige Negative-Prompt-Guidance, die den KV-Cache des Hauptmodells wiederverwendet, um eine effiziente unbedingte Dekodierung zu approximieren. MTI erzielt konsistente Verbesserungen bei allgemeinen, Programmier- und STEM-Aufgaben – z. B. eine durchschnittliche Steigerung von +1,35 % auf acht Benchmarks für Qwen3-8B-Base und +5 % auf AIME2024 mit Qwen3-32B-Reasoning – bei gleichbleibend hoher Effizienz.

English

Recent progress in large language models (LLMs) has focused on test-time scaling to improve reasoning via increased inference computation, but often at the cost of efficiency. We revisit test-time behavior and uncover a simple yet underexplored phenomenon: reasoning uncertainty is highly localized-only a small subset of high-entropy tokens dominantly affects output correctness. Motivated by this, we propose Minimal Test-Time Intervention (MTI), a training-free framework that enhances reasoning accuracy and stability with minimal overhead. MTI includes: (i) Selective CFG intervention, applying classifier-free guidance only at uncertain positions; and (ii) Lightweight negative-prompt guidance, reusing the main model's KV cache to approximate unconditional decoding efficiently. MTI yields consistent gains across general, coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining highly efficient.

Weniger ist mehr: Verbesserung des LLM-Denkens durch minimalen Eingriff zur Testzeit

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

papers.abstract

Support