Free(): Aprendendo a Esquecer em Modelos de Raciocínio Baseados Exclusivamente em Malloc

Resumo

Os modelos de raciocínio aprimoram a resolução de problemas através da escalabilidade do poder computacional em tempo de teste, mas enfrentam um paradoxo crítico: tokens de pensamento excessivos frequentemente degradam o desempenho em vez de melhorá-lo. Atribuímos isso a uma falha arquitetônica fundamental: os LLMs padrão operam como motores de "alocação exclusiva" (malloc-only), acumulando continuamente etapas válidas e redundantes sem um mecanismo para podar informações obsoletas. Para romper este ciclo, propomos o Free()LM, um modelo que introduz uma capacidade intrínseca de auto-esquecimento através do Free-Module, um adaptador LoRA plug-and-play. Ao alternar iterativamente entre modos de raciocínio e limpeza, o Free()LM identifica e elimina dinamicamente fragmentos de contexto inúteis, mantendo um estado compacto e livre de ruído. Extensos experimentos demonstram que o Free()LM proporciona melhorias consistentes em todas as escalas de modelo (8B a 685B). Ele alcança uma melhoria média de 3,3% sobre as melhores baselines de raciocínio, estabelecendo até mesmo um novo estado da arte no IMOanswerBench usando o DeepSeek V3.2-Speciale. Mais notavelmente, em tarefas de longo horizonte onde o modelo padrão Qwen3-235B-A22B sofre um colapso total (0% de precisão), o Free()LM restaura o desempenho para 50%. Nossas descobertas sugerem que a inteligência sustentável requer tanto a liberdade de esquecer quanto o poder de pensar.

English

Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.

Free(): Aprendendo a Esquecer em Modelos de Raciocínio Baseados Exclusivamente em Malloc

Free(): Learning to Forget in Malloc-Only Reasoning Models

Resumo

Support