AdaR1: Van Long-CoT naar Hybrid-CoT via Bi-Level Adaptieve Redeneeroptimalisatie

Samenvatting

Onlangs behalen lang-denkende redeneermodellen sterke prestaties op complexe redeneertaken, maar brengen ze vaak aanzienlijke inferentie-overhead met zich mee, wat efficiëntie tot een kritieke zorg maakt. Onze empirische analyse toont aan dat het voordeel van het gebruik van Long-CoT varieert tussen problemen: terwijl sommige problemen uitgebreid redeneren vereisen, laten andere geen verbetering zien of zelfs een verminderde nauwkeurigheid. Dit motiveert adaptieve redeneerstrategieën die de redeneerdiepte aanpassen aan de invoer. Eerdere werkzaamheden beperken zich echter voornamelijk tot het verminderen van redundantie binnen lange redeneerpaden, wat de verkenning van efficiëntere strategieën buiten het Long-CoT-paradigma beperkt. Om dit aan te pakken, stellen we een nieuw tweestapsraamwerk voor voor adaptief en efficiënt redeneren. Ten eerste construeren we een hybride redeneermodel door lange en korte CoT-modellen te combineren om diverse redeneerstijlen mogelijk te maken. Ten tweede passen we bi-level voorkeurstraining toe om het model te begeleiden bij het selecteren van geschikte redeneerstijlen (groepsniveau) en het prefereren van beknopt en correct redeneren binnen elke stijlgroep (instantieniveau). Experimenten tonen aan dat onze methode de inferentiekosten aanzienlijk verlaagt in vergelijking met andere baseline-benaderingen, terwijl de prestaties behouden blijven. Opmerkelijk is dat op vijf wiskundige datasets de gemiddelde lengte van het redeneren met meer dan 50% wordt verminderd, wat het potentieel van adaptieve strategieën benadrukt om de redeneerefficiëntie in grote taalmodellen te optimaliseren. Onze code zal binnenkort beschikbaar zijn op https://github.com/StarDewXXX/AdaR1.

English

Recently, long-thought reasoning models achieve strong performance on complex reasoning tasks, but often incur substantial inference overhead, making efficiency a critical concern. Our empirical analysis reveals that the benefit of using Long-CoT varies across problems: while some problems require elaborate reasoning, others show no improvement, or even degraded accuracy. This motivates adaptive reasoning strategies that tailor reasoning depth to the input. However, prior work primarily reduces redundancy within long reasoning paths, limiting exploration of more efficient strategies beyond the Long-CoT paradigm. To address this, we propose a novel two-stage framework for adaptive and efficient reasoning. First, we construct a hybrid reasoning model by merging long and short CoT models to enable diverse reasoning styles. Second, we apply bi-level preference training to guide the model to select suitable reasoning styles (group-level), and prefer concise and correct reasoning within each style group (instance-level). Experiments demonstrate that our method significantly reduces inference costs compared to other baseline approaches, while maintaining performance. Notably, on five mathematical datasets, the average length of reasoning is reduced by more than 50%, highlighting the potential of adaptive strategies to optimize reasoning efficiency in large language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1

AdaR1: Van Long-CoT naar Hybrid-CoT via Bi-Level Adaptieve Redeneeroptimalisatie

AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization

Samenvatting

Support