AdaR1: De Long-CoT a Hybrid-CoT mediante Optimización de Razonamiento Bi-Nivel Adaptativo
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
April 30, 2025
Autores: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI
Resumen
Recientemente, los modelos de razonamiento de pensamiento prolongado han logrado un rendimiento sólido en tareas de razonamiento complejo, pero a menudo incurren en un sobrecosto sustancial de inferencia, lo que convierte a la eficiencia en una preocupación crítica. Nuestro análisis empírico revela que el beneficio de utilizar Long-CoT varía según los problemas: mientras que algunos problemas requieren un razonamiento elaborado, otros no muestran mejoría o incluso experimentan una disminución en la precisión. Esto motiva estrategias de razonamiento adaptativo que ajustan la profundidad del razonamiento a la entrada. Sin embargo, trabajos previos principalmente reducen la redundancia dentro de las rutas de razonamiento largas, limitando la exploración de estrategias más eficientes más allá del paradigma Long-CoT. Para abordar esto, proponemos un marco novedoso de dos etapas para un razonamiento adaptativo y eficiente. Primero, construimos un modelo de razonamiento híbrido fusionando modelos CoT largos y cortos para habilitar estilos de razonamiento diversos. Segundo, aplicamos un entrenamiento de preferencia de dos niveles para guiar al modelo a seleccionar estilos de razonamiento adecuados (a nivel de grupo) y preferir un razonamiento conciso y correcto dentro de cada grupo de estilo (a nivel de instancia). Los experimentos demuestran que nuestro método reduce significativamente los costos de inferencia en comparación con otros enfoques de referencia, manteniendo el rendimiento. Notablemente, en cinco conjuntos de datos matemáticos, la longitud promedio del razonamiento se reduce en más del 50%, destacando el potencial de las estrategias adaptativas para optimizar la eficiencia del razonamiento en modelos de lenguaje grandes. Nuestro código estará disponible próximamente en https://github.com/StarDewXXX/AdaR1.
English
Recently, long-thought reasoning models achieve strong performance on complex
reasoning tasks, but often incur substantial inference overhead, making
efficiency a critical concern. Our empirical analysis reveals that the benefit
of using Long-CoT varies across problems: while some problems require elaborate
reasoning, others show no improvement, or even degraded accuracy. This
motivates adaptive reasoning strategies that tailor reasoning depth to the
input. However, prior work primarily reduces redundancy within long reasoning
paths, limiting exploration of more efficient strategies beyond the Long-CoT
paradigm. To address this, we propose a novel two-stage framework for adaptive
and efficient reasoning. First, we construct a hybrid reasoning model by
merging long and short CoT models to enable diverse reasoning styles. Second,
we apply bi-level preference training to guide the model to select suitable
reasoning styles (group-level), and prefer concise and correct reasoning within
each style group (instance-level). Experiments demonstrate that our method
significantly reduces inference costs compared to other baseline approaches,
while maintaining performance. Notably, on five mathematical datasets, the
average length of reasoning is reduced by more than 50%, highlighting the
potential of adaptive strategies to optimize reasoning efficiency in large
language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1Summary
AI-Generated Summary