ChatPaper.aiChatPaper

Piensa solo cuando lo necesites con modelos híbridos de razonamiento a gran escala

Think Only When You Need with Large Hybrid-Reasoning Models

May 20, 2025
Autores: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI

Resumen

Los modelos recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado capacidades de razonamiento sustancialmente mejoradas en comparación con los modelos tradicionales de lenguaje a gran escala (LLMs) al incorporar procesos de pensamiento extendido antes de generar respuestas finales. Sin embargo, un pensamiento excesivamente prolongado introduce una sobrecarga significativa en términos de consumo de tokens y latencia, lo cual resulta particularmente innecesario para consultas simples. En este trabajo, presentamos los Modelos de Razonamiento Híbrido a Gran Escala (LHRMs), el primer tipo de modelo capaz de determinar de manera adaptativa si realizar o no un proceso de pensamiento basado en la información contextual de las consultas del usuario. Para lograrlo, proponemos un pipeline de entrenamiento en dos etapas que incluye un Ajuste Fino Híbrido (HFT) como punto de partida inicial, seguido de un aprendizaje por refuerzo en línea con la Optimización de Política de Grupo Híbrido (HGPO) propuesta, con el fin de aprender implícitamente a seleccionar el modo de pensamiento adecuado. Además, introducimos una métrica llamada Precisión Híbrida para evaluar cuantitativamente la capacidad del modelo para el pensamiento híbrido. Los resultados experimentales extensivos muestran que los LHRMs pueden realizar de manera adaptativa un pensamiento híbrido en consultas de diversa dificultad y tipo. Superan a los LRMs y LLMs existentes tanto en capacidades de razonamiento como generales, al tiempo que mejoran significativamente la eficiencia. En conjunto, nuestro trabajo aboga por una reconsideración del uso apropiado de los procesos de pensamiento extendido y proporciona un punto de partida sólido para la construcción de sistemas de pensamiento híbrido.
English
Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model's capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.

Summary

AI-Generated Summary

PDF111May 21, 2025