Laat LLMs bevrijden van overdenken via zelfremmende afstemming

Samenvatting

Grote redeneermodellen (LRM's), zoals OpenAI o1 en DeepSeek-R1, hebben hun redeneervermogen aanzienlijk verbeterd door langere gedachtegangen te genereren, wat uitstekende prestaties oplevert bij een verscheidenheid aan taken. Deze prestatieverbetering gaat echter gepaard met een aanzienlijke toename van overbodige redeneringen tijdens het generatieproces, wat leidt tot hoge rekenkosten en het probleem van overdenken verergert. Hoewel veel bestaande benaderingen proberen het probleem van overdenken aan te pakken, zijn ze vaak afhankelijk van externe interventies. In dit artikel stellen we een nieuw raamwerk voor, Self-Braking Tuning (SBT), dat overdenken aanpakt door het model in staat te stellen zijn eigen redeneerproces te reguleren, waardoor de afhankelijkheid van externe controlemechanismen wordt geëlimineerd. We construeren een set van identificatiemetrics voor overdenken op basis van standaardantwoorden en ontwerpen een systematische methode om overbodige redeneringen te detecteren. Deze methode identificeert nauwkeurig onnodige stappen binnen de redeneertrajectorie en genereert trainingssignalen voor het aanleren van zelfregulerend gedrag. Op basis hiervan ontwikkelen we een complete strategie voor het construeren van data met adaptieve redeneerlengtes en introduceren we een innovatief rempromptmechanisme dat het model in staat stelt om op natuurlijke wijze te leren wanneer het redeneren op een geschikt moment moet beëindigen. Experimenten op wiskundige benchmarks (AIME, AMC, MATH500, GSM8K) tonen aan dat onze methode het tokenverbruik met tot wel 60% reduceert, terwijl een vergelijkbare nauwkeurigheid wordt behouden als bij onbeperkte modellen.

English

Large reasoning models (LRMs), such as OpenAI o1 and DeepSeek-R1, have significantly enhanced their reasoning capabilities by generating longer chains of thought, demonstrating outstanding performance across a variety of tasks. However, this performance gain comes at the cost of a substantial increase in redundant reasoning during the generation process, leading to high computational overhead and exacerbating the issue of overthinking. Although numerous existing approaches aim to address the problem of overthinking, they often rely on external interventions. In this paper, we propose a novel framework, Self-Braking Tuning (SBT), which tackles overthinking from the perspective of allowing the model to regulate its own reasoning process, thus eliminating the reliance on external control mechanisms. We construct a set of overthinking identification metrics based on standard answers and design a systematic method to detect redundant reasoning. This method accurately identifies unnecessary steps within the reasoning trajectory and generates training signals for learning self-regulation behaviors. Building on this foundation, we develop a complete strategy for constructing data with adaptive reasoning lengths and introduce an innovative braking prompt mechanism that enables the model to naturally learn when to terminate reasoning at an appropriate point. Experiments across mathematical benchmarks (AIME, AMC, MATH500, GSM8K) demonstrate that our method reduces token consumption by up to 60% while maintaining comparable accuracy to unconstrained models.

Laat LLMs bevrijden van overdenken via zelfremmende afstemming

Let LLMs Break Free from Overthinking via Self-Braking Tuning

Samenvatting

Support