ChatPaper.aiChatPaper

Free(): Erlernen des Vergessens in Malloc-Only-Reasoning-Modellen

Free(): Learning to Forget in Malloc-Only Reasoning Models

February 8, 2026
papers.authors: Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang
cs.AI

papers.abstract

Reasoning-Modelle verbessern die Problemlösung durch Skalierung des Rechenaufwands zur Testzeit, stehen jedoch vor einem kritischen Paradoxon: Übermäßige Denk-Tokens verschlechtern die Leistung oftmals, anstatt sie zu verbessern. Wir führen dies auf einen grundlegenden Architekturfehler zurück: Standard-LLMs arbeiten als "Nur-Malloc"-Engines, die kontinuierlich sowohl gültige als auch redundante Schritte anhäufen, ohne einen Mechanismus zum Ausmustern veralteter Informationen. Um diesen Kreislauf zu durchbrechen, schlagen wir Free()LM vor, ein Modell, das eine intrinsische Selbstvergessensfähigkeit über das Free-Modul, einen Plug-and-Play-LoRA-Adapter, einführt. Durch iteratives Wechseln zwischen Reasoning- und Bereinigungsmodi identifiziert und entfernt Free()LM dynamisch nutzlose Kontextblöcke und bewahrt so einen kompakten und störungsfreien Zustand. Umfangreiche Experimente zeigen, dass Free()LM konsistente Verbesserungen über alle Modellgrößen hinweg (8B bis 685B) bietet. Es erzielt eine durchschnittliche Verbesserung von 3,3 % gegenüber erstklassigen Reasoning-Baselines und etabliert sogar einen neuen SOTA auf IMOanswerBench unter Verwendung von DeepSeek V3.2-Speciale. Besonders bemerkenswert ist, dass bei langfristigen Aufgaben, bei denen das Standardmodell Qwen3-235B-A22B vollständig versagt (0 % Genauigkeit), Free()LM die Leistung auf 50 % wiederherstellt. Unsere Erkenntnisse legen nahe, dass nachhaltige Intelligenz ebenso die Freiheit zu vergessen erfordert wie die Fähigkeit zu denken.
English
Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.
PDF51February 13, 2026