LEAD: lengte-efficiënt adaptief en dynamisch redeneren voor grote taalmodellen

Samenvatting

Grote redeneermodellen, zoals OpenAI o1 en DeepSeek-R1, hebben de neiging steeds breedsprakiger te worden naarmate hun redeneervaardigheden verbeteren. Deze opgeblazen Chain-of-Thought (CoT)-trajecten overschrijden vaak wat de onderliggende problemen vereisen, waardoor rekenkracht, latentie en contextbudgetten worden verspild. Hoewel het introduceren van lengte-efficiëntiebeloningen tijdens reinforcement learning een natuurlijke oplossing biedt, worstelen bestaande methoden met twee fundamentele uitdagingen: het optimale evenwicht tussen correctheid en efficiëntie is niet-stationair gedurende de training, en intrinsieke redeneerbudgetten variëren drastisch per probleem. Vertrouwen op statische beloningsgewichten en globale lengtebeperkingen leidt onvermijdelijk tot een compromis tussen verminderde nauwkeurigheid en niet-gerealiseerde compressie. Om deze beperkingen te overwinnen, stellen wij LEAD (Length-Efficient Adaptive and Dynamic reasoning) voor, een methode die statische heuristieken vervangt door online, zelfadaptieve mechanismen. LEAD kalibreert dynamisch de afweging tussen correctheid en efficiëntie bij elke stap met behulp van een Potential-Scaled Instability, en stuurt optimalisatiecapaciteit naar het meest informatieve leersignaal. Bovendien schat het online een adaptieve doellengte per probleem in op basis van de eigen correcte rollouts van het model, en past een symmetrische efficiëntiebeloning toe die zowel overdenken als overcompressie bestraft. Geëvalueerd op vijf wiskundige redeneerbenchmarks behaalt LEAD de hoogste nauwkeurigheid en Accuracy-Efficiency Score onder RL-getrainde efficiënt-redeneermethoden, terwijl het aanzienlijk kortere uitvoer produceert dan het basismodel.

English

Large reasoning models, such as OpenAI o1 and DeepSeek-R1, tend to become increasingly verbose as their reasoning capabilities improve. These inflated Chain-of-Thought (CoT) trajectories often exceed what the underlying problems require, wasting compute, latency, and context budgets. While introducing length-based efficiency rewards during reinforcement learning offers a natural remedy, existing methods struggle with two fundamental challenges: the optimal balance between correctness and efficiency is non-stationary throughout training, and intrinsic reasoning budgets vary drastically across problems. Relying on static reward weights and global length constraints inevitably forces a compromise between degraded accuracy and unrealized compression. To overcome these limitations, we propose LEAD (Length-Efficient Adaptive and Dynamic reasoning), a method that replaces static heuristics with online, self-adaptive mechanisms. LEAD dynamically calibrates the correctness-efficiency trade-off at each step using a Potential-Scaled Instability, directing optimization capacity to the most informative learning signal. Furthermore, it estimates an adaptive per-problem target length online based on the model's own correct rollouts, applying a symmetric efficiency reward that penalizes both overthinking and over-compression. Evaluated on five mathematical reasoning benchmarks, LEAD achieves the highest accuracy and Accuracy-Efficiency Score among RL-trained efficient-reasoning methods while producing substantially shorter outputs than the base model.