Free(): Imparare a Dimenticare nei Modelli di Ragionamento a Solo Malloc

Abstract

I modelli di ragionamento potenziano la risoluzione di problemi scalando il compute al tempo di test, ma affrontano un paradosso critico: token di pensiero eccessivi spesso degradano le prestazioni anziché migliorarle. Attribuiamo ciò a un difetto architetturale fondamentale: i modelli linguistici standard operano come motori "solo-malloc", accumulando continuamente sia passaggi validi che ridondanti senza un meccanismo per potare le informazioni obsolete. Per rompere questo ciclo, proponiamo Free()LM, un modello che introduce una capacità intrinseca di auto-dimenticanza tramite il Free-Module, un adattatore LoRA plug-and-play. Alternando iterativamente tra modalità di ragionamento e pulizia, Free()LM identifica e rimuove dinamicamente frammenti di contesto inutili, mantenendo uno stato compatto e privo di rumore. Esperimenti estensivi dimostrano che Free()LM fornisce miglioramenti consistenti su tutte le scale di modello (da 8B a 685B). Raggiunge un miglioramento medio del 3.3% rispetto ai migliori baseline di ragionamento, stabilendo persino un nuovo stato dell'arte su IMOanswerBench utilizzando DeepSeek V3.2-Speciale. Soprattutto, in compiti a lungo termine dove il modello standard Qwen3-235B-A22B subisce un collasso totale (0% di accuratezza), Free()LM ripristina le prestazioni al 50%. I nostri risultati suggeriscono che un'intelligenza sostenibile richiede la libertà di dimenticare tanto quanto il potere di pensare.

English

Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.

Free(): Imparare a Dimenticare nei Modelli di Ragionamento a Solo Malloc

Free(): Learning to Forget in Malloc-Only Reasoning Models

Abstract

Support