Думайте только тогда, когда это необходимо, с использованием крупных гибридных моделей рассуждений

Аннотация

Недавние модели крупномасштабного рассуждения (Large Reasoning Models, LRMs) продемонстрировали существенное улучшение способностей к рассуждению по сравнению с традиционными крупными языковыми моделями (Large Language Models, LLMs) благодаря включению расширенных процессов мышления перед генерацией окончательных ответов. Однако чрезмерно длительное мышление приводит к значительным накладным расходам в виде потребления токенов и задержек, что особенно избыточно для простых запросов. В данной работе мы представляем модели крупномасштабного гибридного рассуждения (Large Hybrid-Reasoning Models, LHRMs) — первый тип моделей, способных адаптивно определять необходимость выполнения мышления на основе контекстной информации пользовательских запросов. Для достижения этого мы предлагаем двухэтапный процесс обучения, включающий гибридную тонкую настройку (Hybrid Fine-Tuning, HFT) в качестве начального этапа, за которым следует обучение с подкреплением в режиме онлайн с использованием предложенного метода оптимизации групповой политики (Hybrid Group Policy Optimization, HGPO) для неявного обучения выбору подходящего режима мышления. Кроме того, мы вводим метрику под названием Гибридная точность (Hybrid Accuracy) для количественной оценки способности модели к гибридному мышлению. Результаты многочисленных экспериментов показывают, что LHRMs могут адаптивно выполнять гибридное мышление для запросов различной сложности и типа. Они превосходят существующие LRMs и LLMs как в способностях к рассуждению, так и в общих возможностях, одновременно значительно повышая эффективность. В совокупности наша работа призывает к пересмотру целесообразного использования расширенных процессов мышления и предоставляет прочную основу для создания систем гибридного мышления.

English

Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model's capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.

Думайте только тогда, когда это необходимо, с использованием крупных гибридных моделей рассуждений

Think Only When You Need with Large Hybrid-Reasoning Models

Аннотация

Support