Думайте только тогда, когда это необходимо, с использованием крупных гибридных моделей рассуждений
Think Only When You Need with Large Hybrid-Reasoning Models
May 20, 2025
Авторы: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI
Аннотация
Недавние модели крупномасштабного рассуждения (Large Reasoning Models, LRMs) продемонстрировали существенное улучшение способностей к рассуждению по сравнению с традиционными крупными языковыми моделями (Large Language Models, LLMs) благодаря включению расширенных процессов мышления перед генерацией окончательных ответов. Однако чрезмерно длительное мышление приводит к значительным накладным расходам в виде потребления токенов и задержек, что особенно избыточно для простых запросов. В данной работе мы представляем модели крупномасштабного гибридного рассуждения (Large Hybrid-Reasoning Models, LHRMs) — первый тип моделей, способных адаптивно определять необходимость выполнения мышления на основе контекстной информации пользовательских запросов. Для достижения этого мы предлагаем двухэтапный процесс обучения, включающий гибридную тонкую настройку (Hybrid Fine-Tuning, HFT) в качестве начального этапа, за которым следует обучение с подкреплением в режиме онлайн с использованием предложенного метода оптимизации групповой политики (Hybrid Group Policy Optimization, HGPO) для неявного обучения выбору подходящего режима мышления. Кроме того, мы вводим метрику под названием Гибридная точность (Hybrid Accuracy) для количественной оценки способности модели к гибридному мышлению. Результаты многочисленных экспериментов показывают, что LHRMs могут адаптивно выполнять гибридное мышление для запросов различной сложности и типа. Они превосходят существующие LRMs и LLMs как в способностях к рассуждению, так и в общих возможностях, одновременно значительно повышая эффективность. В совокупности наша работа призывает к пересмотру целесообразного использования расширенных процессов мышления и предоставляет прочную основу для создания систем гибридного мышления.
English
Recent Large Reasoning Models (LRMs) have shown substantially improved
reasoning capabilities over traditional Large Language Models (LLMs) by
incorporating extended thinking processes prior to producing final responses.
However, excessively lengthy thinking introduces substantial overhead in terms
of token consumption and latency, which is particularly unnecessary for simple
queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the
first kind of model capable of adaptively determining whether to perform
thinking based on the contextual information of user queries. To achieve this,
we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as
a cold start, followed by online reinforcement learning with the proposed
Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the
appropriate thinking mode. Furthermore, we introduce a metric called Hybrid
Accuracy to quantitatively assess the model's capability for hybrid thinking.
Extensive experimental results show that LHRMs can adaptively perform hybrid
thinking on queries of varying difficulty and type. It outperforms existing
LRMs and LLMs in reasoning and general capabilities while significantly
improving efficiency. Together, our work advocates for a reconsideration of the
appropriate use of extended thinking processes and provides a solid starting
point for building hybrid thinking systems.Summary
AI-Generated Summary