ChatPaper.aiChatPaper

Free(): обучение забыванию в моделях рассуждений с исключительно malloc-выделением памяти

Free(): Learning to Forget in Malloc-Only Reasoning Models

February 8, 2026
Авторы: Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang
cs.AI

Аннотация

Модели рассуждений улучшают решение задач за счет масштабирования вычислений во время тестирования, однако сталкиваются с ключевым парадоксом: чрезмерное количество "токенов мышления" часто ухудшает производительность вместо ее улучшения. Мы объясняем это фундаментальным архитектурным недостатком: стандартные большие языковые модели работают как "malloc-only" движки, непрерывно накапливая как полезные, так и избыточные шаги, без механизма для удаления устаревшей информации. Чтобы разорвать этот круг, мы предлагаем Free()LM — модель, которая вводит внутреннюю способность к само-забыванию через Free-Module, подключаемый LoRA-адаптер. Последовательно переключаясь между режимами рассуждения и очистки, Free()LM динамически идентифицирует и удаляет бесполезные фрагменты контекста, поддерживая компактное и свободное от шума состояние. Обширные эксперименты показывают, что Free()LM обеспечивает стабильное улучшение на всех масштабах моделей (от 8B до 685B). Она демонстрирует среднее улучшение на 3.3% по сравнению с лучшими базовыми моделями рассуждений, устанавливая новый рекорд (SOTA) на IMOanswerBench с использованием DeepSeek V3.2-Speciale. Особенно показательно, что в долгосрочных задачах, где стандартная модель Qwen3-235B-A22B терпит полный провал (0% точности), Free()LM восстанавливает производительность до 50%. Наши результаты свидетельствуют, что устойчивый интеллект требует свободы забывать в той же мере, что и способности мыслить.
English
Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.
PDF51February 13, 2026