AdaR1: Von Long-CoT zu Hybrid-CoT durch bi-level adaptive Optimierung des Denkprozesses
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
April 30, 2025
Autoren: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI
Zusammenfassung
Kürzlich haben Modelle für langkettiges Denken (Long-CoT) starke Leistungen bei komplexen Denkaufgaben gezeigt, verursachen jedoch oft erheblichen Inferenzaufwand, was Effizienz zu einem kritischen Anliegen macht. Unsere empirische Analyse zeigt, dass der Nutzen von Long-CoT je nach Problem variiert: Während einige Probleme aufwendiges Denken erfordern, zeigen andere keine Verbesserung oder sogar eine geringere Genauigkeit. Dies motiviert adaptive Denkstrategien, die die Denktiefe an den Eingang anpassen. Bisherige Arbeiten reduzieren jedoch hauptsächlich Redundanzen innerhalb langer Denkpfade, was die Erforschung effizienterer Strategien jenseits des Long-CoT-Paradigmas einschränkt. Um dies zu adressieren, schlagen wir ein neuartiges zweistufiges Framework für adaptives und effizientes Denken vor. Zunächst konstruieren wir ein hybrides Denkmodell, indem wir lange und kurze CoT-Modelle kombinieren, um verschiedene Denkstile zu ermöglichen. Zweitens wenden wir ein zweistufiges Präferenztraining an, um das Modell anzuleiten, geeignete Denkstile (Gruppenebene) auszuwählen und innerhalb jeder Stilgruppe präzises und korrektes Denken zu bevorzugen (Instanzebene). Experimente zeigen, dass unsere Methode die Inferenzkosten im Vergleich zu anderen Baseline-Ansätzen signifikant reduziert, während die Leistung erhalten bleibt. Bemerkenswerterweise wird die durchschnittliche Länge des Denkens auf fünf mathematischen Datensätzen um mehr als 50 % reduziert, was das Potenzial adaptiver Strategien zur Optimierung der Denkeffizienz in großen Sprachmodellen unterstreicht. Unser Code wird demnächst unter https://github.com/StarDewXXX/AdaR1 verfügbar sein.
English
Recently, long-thought reasoning models achieve strong performance on complex
reasoning tasks, but often incur substantial inference overhead, making
efficiency a critical concern. Our empirical analysis reveals that the benefit
of using Long-CoT varies across problems: while some problems require elaborate
reasoning, others show no improvement, or even degraded accuracy. This
motivates adaptive reasoning strategies that tailor reasoning depth to the
input. However, prior work primarily reduces redundancy within long reasoning
paths, limiting exploration of more efficient strategies beyond the Long-CoT
paradigm. To address this, we propose a novel two-stage framework for adaptive
and efficient reasoning. First, we construct a hybrid reasoning model by
merging long and short CoT models to enable diverse reasoning styles. Second,
we apply bi-level preference training to guide the model to select suitable
reasoning styles (group-level), and prefer concise and correct reasoning within
each style group (instance-level). Experiments demonstrate that our method
significantly reduces inference costs compared to other baseline approaches,
while maintaining performance. Notably, on five mathematical datasets, the
average length of reasoning is reduced by more than 50%, highlighting the
potential of adaptive strategies to optimize reasoning efficiency in large
language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1Summary
AI-Generated Summary