Free(): Leren vergeten in malloc-only redeneermodellen

Samenvatting

Redeneermodellen verbeteren probleemoplossing door de rekencapaciteit tijdens tests te schalen, maar ze kampen met een cruciaal paradox: excessieve denktokens leiden vaak tot prestatievermindering in plaats van verbetering. Wij schrijven dit toe aan een fundamenteel architecturaal mankement: standaard LLM's functioneren als "malloc-only" engines, die continu zowel valide als redundante stappen accumuleren zonder mechanisme om verouderde informatie te snoeien. Om deze cyclus te doorbreken, stellen wij Free()LM voor, een model dat een intrinsisch zelfvergetend vermogen introduceert via de Free-Module, een plug-and-play LoRA-adapter. Door iteratief te schakelen tussen redeneer- en opschoningsmodi, identificeert en verwijdert Free()LM dynamisch nutteloze contextsegmenten, waardoor een compacte en ruisvrije staat behouden blijft. Uitgebreide experimenten tonen aan dat Free()LM consistente verbeteringen biedt over alle modelschalen (8B tot 685B). Het behaalt een gemiddelde verbetering van 3,3% ten opzichte van top-tier redeneer-baselines en vestigt zelfs een nieuwe SOTA op IMOanswerBench met DeepSeek V3.2-Speciale. Opmerkelijkst is dat bij langetermijntaken, waar het standaard Qwen3-235B-A22B model volledig instort (0% nauwkeurigheid), Free()LM de prestaties herstelt tot 50%. Onze bevindingen suggereren dat duurzame intelligentie evenzeer de vrijheid om te vergeten vereist als de kracht om te denken.

English

Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.

Free(): Leren vergeten in malloc-only redeneermodellen

Free(): Learning to Forget in Malloc-Only Reasoning Models

Samenvatting

Support