ChatPaper.aiChatPaper

AdaptThink: Los modelos de razonamiento pueden aprender cuándo pensar

AdaptThink: Reasoning Models Can Learn When to Think

May 19, 2025
Autores: Jiajie Zhang, Nianyi Lin, Lei Hou, Ling Feng, Juanzi Li
cs.AI

Resumen

Recientemente, los modelos de razonamiento a gran escala han logrado un rendimiento impresionante en diversas tareas al emplear un pensamiento profundo similar al humano. Sin embargo, el prolongado proceso de pensamiento aumenta sustancialmente la sobrecarga de inferencia, convirtiendo la eficiencia en un cuello de botella crítico. En este trabajo, primero demostramos que NoThinking, que induce al modelo de razonamiento a omitir el pensamiento y generar directamente la solución final, es una opción mejor para tareas relativamente simples en términos tanto de rendimiento como de eficiencia. Motivados por esto, proponemos AdaptThink, un novedoso algoritmo de RL para enseñar a los modelos de razonamiento a elegir de manera adaptativa el modo de pensamiento óptimo según la dificultad del problema. Específicamente, AdaptThink cuenta con dos componentes principales: (1) un objetivo de optimización restringido que incentiva al modelo a elegir NoThinking mientras mantiene el rendimiento general; (2) una estrategia de muestreo por importancia que equilibra las muestras de Thinking y NoThinking durante el entrenamiento on-policy, permitiendo así un arranque en frío y posibilitando que el modelo explore y explote ambos modos de pensamiento a lo largo del proceso de entrenamiento. Nuestros experimentos indican que AdaptThink reduce significativamente los costos de inferencia mientras mejora aún más el rendimiento. Notablemente, en tres conjuntos de datos matemáticos, AdaptThink reduce la longitud promedio de respuesta de DeepSeek-R1-Distill-Qwen-1.5B en un 53% y mejora su precisión en un 2.4%, destacando el potencial de la selección adaptativa del modo de pensamiento para optimizar el equilibrio entre la calidad del razonamiento y la eficiencia. Nuestros códigos y modelos están disponibles en https://github.com/THU-KEG/AdaptThink.
English
Recently, large reasoning models have achieved impressive performance on various tasks by employing human-like deep thinking. However, the lengthy thinking process substantially increases inference overhead, making efficiency a critical bottleneck. In this work, we first demonstrate that NoThinking, which prompts the reasoning model to skip thinking and directly generate the final solution, is a better choice for relatively simple tasks in terms of both performance and efficiency. Motivated by this, we propose AdaptThink, a novel RL algorithm to teach reasoning models to choose the optimal thinking mode adaptively based on problem difficulty. Specifically, AdaptThink features two core components: (1) a constrained optimization objective that encourages the model to choose NoThinking while maintaining the overall performance; (2) an importance sampling strategy that balances Thinking and NoThinking samples during on-policy training, thereby enabling cold start and allowing the model to explore and exploit both thinking modes throughout the training process. Our experiments indicate that AdaptThink significantly reduces the inference costs while further enhancing performance. Notably, on three math datasets, AdaptThink reduces the average response length of DeepSeek-R1-Distill-Qwen-1.5B by 53% and improves its accuracy by 2.4%, highlighting the promise of adaptive thinking-mode selection for optimizing the balance between reasoning quality and efficiency. Our codes and models are available at https://github.com/THU-KEG/AdaptThink.

Summary

AI-Generated Summary

PDF581May 20, 2025