Denke nur, wenn du es brauchst, mit großen hybriden Schlussfolgermodellen
Think Only When You Need with Large Hybrid-Reasoning Models
May 20, 2025
Autoren: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI
Zusammenfassung
Kürzlich entwickelte Large Reasoning Models (LRMs) haben im Vergleich zu traditionellen Large Language Models (LLMs) deutlich verbesserte Fähigkeiten im Bereich des logischen Denkens gezeigt, indem sie erweiterte Denkprozesse vor der Generierung endgültiger Antworten einbeziehen. Allerdings führt ein übermäßig langes Denken zu erheblichem Overhead in Bezug auf Token-Verbrauch und Latenz, was insbesondere bei einfachen Anfragen unnötig ist. In dieser Arbeit stellen wir Large Hybrid-Reasoning Models (LHRMs) vor, die erste Art von Modellen, die adaptiv entscheiden können, ob Denkprozesse basierend auf den kontextuellen Informationen von Benutzeranfragen durchgeführt werden sollen. Um dies zu erreichen, schlagen wir eine zweistufige Trainingspipeline vor, die Hybrid Fine-Tuning (HFT) als Kaltstart umfasst, gefolgt von Online-Reinforcement-Learning mit dem vorgeschlagenen Hybrid Group Policy Optimization (HGPO), um implizit zu lernen, den geeigneten Denkmodus auszuwählen. Darüber hinaus führen wir eine Metrik namens Hybrid Accuracy ein, um die Fähigkeit des Modells zum hybriden Denken quantitativ zu bewerten. Umfangreiche experimentelle Ergebnisse zeigen, dass LHRMs adaptiv hybrides Denken bei Anfragen unterschiedlicher Schwierigkeit und Art durchführen können. Sie übertreffen bestehende LRMs und LLMs in Bezug auf logisches Denken und allgemeine Fähigkeiten, während sie gleichzeitig die Effizienz deutlich verbessern. Insgesamt plädiert unsere Arbeit für eine Neubewertung des angemessenen Einsatzes erweiterter Denkprozesse und bietet einen soliden Ausgangspunkt für den Aufbau hybrider Denksysteme.
English
Recent Large Reasoning Models (LRMs) have shown substantially improved
reasoning capabilities over traditional Large Language Models (LLMs) by
incorporating extended thinking processes prior to producing final responses.
However, excessively lengthy thinking introduces substantial overhead in terms
of token consumption and latency, which is particularly unnecessary for simple
queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the
first kind of model capable of adaptively determining whether to perform
thinking based on the contextual information of user queries. To achieve this,
we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as
a cold start, followed by online reinforcement learning with the proposed
Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the
appropriate thinking mode. Furthermore, we introduce a metric called Hybrid
Accuracy to quantitatively assess the model's capability for hybrid thinking.
Extensive experimental results show that LHRMs can adaptively perform hybrid
thinking on queries of varying difficulty and type. It outperforms existing
LRMs and LLMs in reasoning and general capabilities while significantly
improving efficiency. Together, our work advocates for a reconsideration of the
appropriate use of extended thinking processes and provides a solid starting
point for building hybrid thinking systems.Summary
AI-Generated Summary