AdaptThink: Los modelos de razonamiento pueden aprender cuándo pensar
AdaptThink: Reasoning Models Can Learn When to Think
May 19, 2025
Autores: Jiajie Zhang, Nianyi Lin, Lei Hou, Ling Feng, Juanzi Li
cs.AI
Resumen
Recientemente, los modelos de razonamiento a gran escala han logrado un rendimiento impresionante en diversas tareas al emplear un pensamiento profundo similar al humano. Sin embargo, el prolongado proceso de pensamiento aumenta sustancialmente la sobrecarga de inferencia, convirtiendo la eficiencia en un cuello de botella crítico. En este trabajo, primero demostramos que NoThinking, que induce al modelo de razonamiento a omitir el pensamiento y generar directamente la solución final, es una opción mejor para tareas relativamente simples en términos tanto de rendimiento como de eficiencia. Motivados por esto, proponemos AdaptThink, un novedoso algoritmo de RL para enseñar a los modelos de razonamiento a elegir de manera adaptativa el modo de pensamiento óptimo según la dificultad del problema. Específicamente, AdaptThink cuenta con dos componentes principales: (1) un objetivo de optimización restringido que incentiva al modelo a elegir NoThinking mientras mantiene el rendimiento general; (2) una estrategia de muestreo por importancia que equilibra las muestras de Thinking y NoThinking durante el entrenamiento on-policy, permitiendo así un arranque en frío y posibilitando que el modelo explore y explote ambos modos de pensamiento a lo largo del proceso de entrenamiento. Nuestros experimentos indican que AdaptThink reduce significativamente los costos de inferencia mientras mejora aún más el rendimiento. Notablemente, en tres conjuntos de datos matemáticos, AdaptThink reduce la longitud promedio de respuesta de DeepSeek-R1-Distill-Qwen-1.5B en un 53% y mejora su precisión en un 2.4%, destacando el potencial de la selección adaptativa del modo de pensamiento para optimizar el equilibrio entre la calidad del razonamiento y la eficiencia. Nuestros códigos y modelos están disponibles en https://github.com/THU-KEG/AdaptThink.
English
Recently, large reasoning models have achieved impressive performance on
various tasks by employing human-like deep thinking. However, the lengthy
thinking process substantially increases inference overhead, making efficiency
a critical bottleneck. In this work, we first demonstrate that NoThinking,
which prompts the reasoning model to skip thinking and directly generate the
final solution, is a better choice for relatively simple tasks in terms of both
performance and efficiency. Motivated by this, we propose AdaptThink, a novel
RL algorithm to teach reasoning models to choose the optimal thinking mode
adaptively based on problem difficulty. Specifically, AdaptThink features two
core components: (1) a constrained optimization objective that encourages the
model to choose NoThinking while maintaining the overall performance; (2) an
importance sampling strategy that balances Thinking and NoThinking samples
during on-policy training, thereby enabling cold start and allowing the model
to explore and exploit both thinking modes throughout the training process. Our
experiments indicate that AdaptThink significantly reduces the inference costs
while further enhancing performance. Notably, on three math datasets,
AdaptThink reduces the average response length of DeepSeek-R1-Distill-Qwen-1.5B
by 53% and improves its accuracy by 2.4%, highlighting the promise of adaptive
thinking-mode selection for optimizing the balance between reasoning quality
and efficiency. Our codes and models are available at
https://github.com/THU-KEG/AdaptThink.Summary
AI-Generated Summary