Laat LLMs bevrijden van overdenken via zelfremmende afstemming
Let LLMs Break Free from Overthinking via Self-Braking Tuning
May 20, 2025
Auteurs: Haoran Zhao, Yuchen Yan, Yongliang Shen, Haolei Xu, Wenqi Zhang, Kaitao Song, Jian Shao, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Samenvatting
Grote redeneermodellen (LRM's), zoals OpenAI o1 en DeepSeek-R1, hebben hun redeneervermogen aanzienlijk verbeterd door langere gedachtegangen te genereren, wat uitstekende prestaties oplevert bij een verscheidenheid aan taken. Deze prestatieverbetering gaat echter gepaard met een aanzienlijke toename van overbodige redeneringen tijdens het generatieproces, wat leidt tot hoge rekenkosten en het probleem van overdenken verergert. Hoewel veel bestaande benaderingen proberen het probleem van overdenken aan te pakken, zijn ze vaak afhankelijk van externe interventies. In dit artikel stellen we een nieuw raamwerk voor, Self-Braking Tuning (SBT), dat overdenken aanpakt door het model in staat te stellen zijn eigen redeneerproces te reguleren, waardoor de afhankelijkheid van externe controlemechanismen wordt geëlimineerd. We construeren een set van identificatiemetrics voor overdenken op basis van standaardantwoorden en ontwerpen een systematische methode om overbodige redeneringen te detecteren. Deze methode identificeert nauwkeurig onnodige stappen binnen de redeneertrajectorie en genereert trainingssignalen voor het aanleren van zelfregulerend gedrag. Op basis hiervan ontwikkelen we een complete strategie voor het construeren van data met adaptieve redeneerlengtes en introduceren we een innovatief rempromptmechanisme dat het model in staat stelt om op natuurlijke wijze te leren wanneer het redeneren op een geschikt moment moet beëindigen. Experimenten op wiskundige benchmarks (AIME, AMC, MATH500, GSM8K) tonen aan dat onze methode het tokenverbruik met tot wel 60% reduceert, terwijl een vergelijkbare nauwkeurigheid wordt behouden als bij onbeperkte modellen.
English
Large reasoning models (LRMs), such as OpenAI o1 and DeepSeek-R1, have
significantly enhanced their reasoning capabilities by generating longer chains
of thought, demonstrating outstanding performance across a variety of tasks.
However, this performance gain comes at the cost of a substantial increase in
redundant reasoning during the generation process, leading to high
computational overhead and exacerbating the issue of overthinking. Although
numerous existing approaches aim to address the problem of overthinking, they
often rely on external interventions. In this paper, we propose a novel
framework, Self-Braking Tuning (SBT), which tackles overthinking from the
perspective of allowing the model to regulate its own reasoning process, thus
eliminating the reliance on external control mechanisms. We construct a set of
overthinking identification metrics based on standard answers and design a
systematic method to detect redundant reasoning. This method accurately
identifies unnecessary steps within the reasoning trajectory and generates
training signals for learning self-regulation behaviors. Building on this
foundation, we develop a complete strategy for constructing data with adaptive
reasoning lengths and introduce an innovative braking prompt mechanism that
enables the model to naturally learn when to terminate reasoning at an
appropriate point. Experiments across mathematical benchmarks (AIME, AMC,
MATH500, GSM8K) demonstrate that our method reduces token consumption by up to
60% while maintaining comparable accuracy to unconstrained models.