ChatPaper.aiChatPaper

Pensez uniquement lorsque c'est nécessaire avec les modèles hybrides de raisonnement à grande échelle

Think Only When You Need with Large Hybrid-Reasoning Models

May 20, 2025
papers.authors: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI

papers.abstract

Les modèles récents de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont démontré des capacités de raisonnement nettement améliorées par rapport aux modèles de langage traditionnels à grande échelle (Large Language Models, LLMs) en intégrant des processus de réflexion étendus avant de produire des réponses finales. Cependant, une réflexion excessivement longue introduit une surcharge importante en termes de consommation de tokens et de latence, ce qui est particulièrement inutile pour des requêtes simples. Dans ce travail, nous introduisons les modèles de raisonnement hybride à grande échelle (Large Hybrid-Reasoning Models, LHRMs), le premier type de modèle capable de déterminer de manière adaptative s'il doit effectuer une réflexion en fonction des informations contextuelles des requêtes utilisateur. Pour y parvenir, nous proposons un pipeline d'entraînement en deux étapes comprenant un réglage fin hybride (Hybrid Fine-Tuning, HFT) comme démarrage à froid, suivi d'un apprentissage par renforcement en ligne avec l'optimisation de politique de groupe hybride proposée (Hybrid Group Policy Optimization, HGPO) pour apprendre implicitement à sélectionner le mode de réflexion approprié. De plus, nous introduisons une métrique appelée précision hybride (Hybrid Accuracy) pour évaluer quantitativement la capacité du modèle à effectuer une réflexion hybride. Les résultats expérimentaux approfondis montrent que les LHRMs peuvent effectuer de manière adaptative une réflexion hybride sur des requêtes de difficulté et de type variés. Ils surpassent les LRMs et LLMs existants en termes de capacités de raisonnement et générales tout en améliorant significativement l'efficacité. Ensemble, notre travail plaide pour une réévaluation de l'utilisation appropriée des processus de réflexion étendus et fournit un point de départ solide pour la construction de systèmes de réflexion hybride.
English
Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model's capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.
PDF192May 21, 2025