ChatPaper.aiChatPaper

Free(): 할당 전용 추론 모델에서 망각 학습하기

Free(): Learning to Forget in Malloc-Only Reasoning Models

February 8, 2026
저자: Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang
cs.AI

초록

추론 모델은 테스트 시점 연산 자원을 확장함으로써 문제 해결 능력을 향상시키지만, 지나친 사고 토큰이 성능 향상 대신 오히려 저하시키는 중요한 역설에 직면합니다. 우리는 이를 근본적인 아키텍처 결함으로 규정합니다: 표준 LLM은 "할당 전용(malloc-only)" 엔진처럼 작동하여 유효한 단계와 중복 단계를 가리지 않고 지속적으로 축적하지만, 쓸모없는 정보를 정리할 수 있는 메커니즘이 부재합니다. 이 악순환을 깨기 위해 우리는 Free()LM을 제안합니다. 이 모델은 플러그앤플레이 LoRA 어댑터인 Free-Module을 통해 본질적인 자기 망각 능력을 도입합니다. 추론 모드와 정리 모드 사이를 반복적으로 전환함으로써, Free()LM은 무의미한 콘텍스트 청크를 동적으로 식별하고 제거하여 간결하고 잡음이 없는 상태를 유지합니다. 광범위한 실험 결과, Free()LM은 모든 모델 규모(8B부터 685B까지)에서 일관된 성능 향상을 제공하는 것으로 나타났습니다. 이 모델은 최고 수준의 추론 베이스라인 대비 평균 3.3%의 성능 향상을 달성했으며, DeepSeek V3.2-Speciale를 사용한 IMOanswerBench에서 새로운 SOTA를 수립하기도 했습니다. 가장 주목할 만한 점은, 표준 Qwen3-235B-A22B 모델이 완전한 붕괴(0% 정확도)를 겪는 장기 과제에서 Free()LM이 성능을 50%로 회복시켰다는 것입니다. 우리의 연구 결과는 지속 가능한 지능이 사고하는 능력만큼이나 망각할 자유를 필요로 함을 시사합니다.
English
Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.
PDF51February 13, 2026