AdaR1: Van Long-CoT naar Hybrid-CoT via Bi-Level Adaptieve Redeneeroptimalisatie
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
April 30, 2025
Auteurs: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI
Samenvatting
Onlangs behalen lang-denkende redeneermodellen sterke prestaties op complexe redeneertaken, maar brengen ze vaak aanzienlijke inferentie-overhead met zich mee, wat efficiëntie tot een kritieke zorg maakt. Onze empirische analyse toont aan dat het voordeel van het gebruik van Long-CoT varieert tussen problemen: terwijl sommige problemen uitgebreid redeneren vereisen, laten andere geen verbetering zien of zelfs een verminderde nauwkeurigheid. Dit motiveert adaptieve redeneerstrategieën die de redeneerdiepte aanpassen aan de invoer. Eerdere werkzaamheden beperken zich echter voornamelijk tot het verminderen van redundantie binnen lange redeneerpaden, wat de verkenning van efficiëntere strategieën buiten het Long-CoT-paradigma beperkt. Om dit aan te pakken, stellen we een nieuw tweestapsraamwerk voor voor adaptief en efficiënt redeneren. Ten eerste construeren we een hybride redeneermodel door lange en korte CoT-modellen te combineren om diverse redeneerstijlen mogelijk te maken. Ten tweede passen we bi-level voorkeurstraining toe om het model te begeleiden bij het selecteren van geschikte redeneerstijlen (groepsniveau) en het prefereren van beknopt en correct redeneren binnen elke stijlgroep (instantieniveau). Experimenten tonen aan dat onze methode de inferentiekosten aanzienlijk verlaagt in vergelijking met andere baseline-benaderingen, terwijl de prestaties behouden blijven. Opmerkelijk is dat op vijf wiskundige datasets de gemiddelde lengte van het redeneren met meer dan 50% wordt verminderd, wat het potentieel van adaptieve strategieën benadrukt om de redeneerefficiëntie in grote taalmodellen te optimaliseren. Onze code zal binnenkort beschikbaar zijn op https://github.com/StarDewXXX/AdaR1.
English
Recently, long-thought reasoning models achieve strong performance on complex
reasoning tasks, but often incur substantial inference overhead, making
efficiency a critical concern. Our empirical analysis reveals that the benefit
of using Long-CoT varies across problems: while some problems require elaborate
reasoning, others show no improvement, or even degraded accuracy. This
motivates adaptive reasoning strategies that tailor reasoning depth to the
input. However, prior work primarily reduces redundancy within long reasoning
paths, limiting exploration of more efficient strategies beyond the Long-CoT
paradigm. To address this, we propose a novel two-stage framework for adaptive
and efficient reasoning. First, we construct a hybrid reasoning model by
merging long and short CoT models to enable diverse reasoning styles. Second,
we apply bi-level preference training to guide the model to select suitable
reasoning styles (group-level), and prefer concise and correct reasoning within
each style group (instance-level). Experiments demonstrate that our method
significantly reduces inference costs compared to other baseline approaches,
while maintaining performance. Notably, on five mathematical datasets, the
average length of reasoning is reduced by more than 50%, highlighting the
potential of adaptive strategies to optimize reasoning efficiency in large
language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1