ChatPaper.aiChatPaper

Free() : Apprendre à oublier dans les modèles de raisonnement à allocation exclusive

Free(): Learning to Forget in Malloc-Only Reasoning Models

February 8, 2026
papers.authors: Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang
cs.AI

papers.abstract

Les modèles de raisonnement améliorent la résolution de problèmes en augmentant la puissance de calcul au moment du test, mais ils sont confrontés à un paradoxe critique : un nombre excessif de tokens de réflexion dégrade souvent les performances plutôt que de les améliorer. Nous attribuons cela à une faille architecturale fondamentale : les LLM standards fonctionnent comme des moteurs à "allocation unique", accumulant continuellement des étapes valides et redondantes sans mécanisme pour élaguer les informations obsolètes. Pour briser ce cycle, nous proposons Free()LM, un modèle qui introduit une capacité d'auto-oubli intrinsèque via le Free-Module, un adaptateur LoRA plug-and-play. En alternant itérativement entre les modes de raisonnement et de nettoyage, Free()LM identifie et élimine dynamiquement les segments de contexte inutiles, maintenant un état compact et exempt de bruit. Des expériences approfondies montrent que Free()LM apporte des améliorations constantes à toutes les échelles de modèles (8B à 685B). Il obtient une amélioration moyenne de 3,3 % par rapport aux meilleurs modèles de référence en raisonnement, établissant même un nouveau state-of-the-art sur IMOanswerBench avec DeepSeek V3.2-Speciale. Plus notablement, dans les tâches à long terme où le modèle standard Qwen3-235B-A22B subit un effondrement total (0 % de précision), Free()LM rétablit les performances à 50 %. Nos résultats suggèrent qu'une intelligence durable nécessite autant la liberté d'oublier que le pouvoir de penser.
English
Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.
PDF51February 13, 2026