ChatPaper.aiChatPaper

Free(): Aprendiendo a Olvidar en Modelos de Razonamiento con Solo Malloc

Free(): Learning to Forget in Malloc-Only Reasoning Models

February 8, 2026
Autores: Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang
cs.AI

Resumen

Los modelos de razonamiento mejoran la resolución de problemas mediante el escalado del cómputo en tiempo de prueba, pero enfrentan una paradoja crítica: los tokens de pensamiento excesivos a menudo degradan el rendimiento en lugar de mejorarlo. Atribuimos esto a un defecto arquitectónico fundamental: los LLM estándar operan como motores de "solo asignación" (malloc-only), acumulando continuamente pasos válidos y redundantes por igual, sin un mecanismo para podar información obsoleta. Para romper este ciclo, proponemos Free()LM, un modelo que introduce una capacidad intrínseca de auto-olvido mediante el Free-Module, un adaptador LoRA plug-and-play. Al alternar iterativamente entre modos de razonamiento y limpieza, Free()LM identifica y elimina dinámicamente fragmentos de contexto inútiles, manteniendo un estado compacto y libre de ruido. Extensos experimentos muestran que Free()LM proporciona mejoras consistentes en todas las escalas de modelos (8B a 685B). Logra una mejora promedio del 3.3% sobre los mejores modelos base de razonamiento, incluso estableciendo un nuevo estado del arte (SOTA) en IMOanswerBench utilizando DeepSeek V3.2-Speciale. Más notablemente, en tareas de horizonte largo donde el modelo estándar Qwen3-235B-A22B sufre un colapso total (0% de precisión), Free()LM restaura el rendimiento al 50%. Nuestros hallazgos sugieren que la inteligencia sostenible requiere tanto la libertad de olvidar como el poder de pensar.
English
Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.
PDF51February 13, 2026