Pense Apenas Quando Precisar com Modelos Híbridos de Grande Escala para Raciocínio
Think Only When You Need with Large Hybrid-Reasoning Models
May 20, 2025
Autores: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI
Resumo
Modelos de Raciocínio em Grande Escala (LRMs, na sigla em inglês) recentes demonstraram capacidades de raciocínio substancialmente aprimoradas em comparação com os tradicionais Modelos de Linguagem em Grande Escala (LLMs, na sigla em inglês), ao incorporar processos de pensamento estendidos antes de gerar respostas finais. No entanto, pensamentos excessivamente longos introduzem uma sobrecarga significativa em termos de consumo de tokens e latência, o que é particularmente desnecessário para consultas simples. Neste trabalho, apresentamos os Modelos de Raciocínio Híbrido em Grande Escala (LHRMs, na sigla em inglês), o primeiro tipo de modelo capaz de determinar de forma adaptativa se deve realizar o pensamento com base nas informações contextuais das consultas dos usuários. Para alcançar isso, propomos um pipeline de treinamento em duas etapas, composto por Ajuste Fino Híbrido (HFT, na sigla em inglês) como uma inicialização a frio, seguido por aprendizado por reforço online com a otimização de política de grupo híbrida proposta (HGPO, na sigla em inglês) para aprender implicitamente a selecionar o modo de pensamento apropriado. Além disso, introduzimos uma métrica chamada Acurácia Híbrida para avaliar quantitativamente a capacidade do modelo para o pensamento híbrido. Resultados experimentais extensivos mostram que os LHRMs podem realizar de forma adaptativa o pensamento híbrido em consultas de diferentes dificuldades e tipos. Ele supera os LRMs e LLMs existentes em capacidades de raciocínio e gerais, enquanto melhora significativamente a eficiência. Juntos, nosso trabalho defende uma reconsideração do uso apropriado de processos de pensamento estendidos e fornece um ponto de partida sólido para a construção de sistemas de pensamento híbrido.
English
Recent Large Reasoning Models (LRMs) have shown substantially improved
reasoning capabilities over traditional Large Language Models (LLMs) by
incorporating extended thinking processes prior to producing final responses.
However, excessively lengthy thinking introduces substantial overhead in terms
of token consumption and latency, which is particularly unnecessary for simple
queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the
first kind of model capable of adaptively determining whether to perform
thinking based on the contextual information of user queries. To achieve this,
we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as
a cold start, followed by online reinforcement learning with the proposed
Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the
appropriate thinking mode. Furthermore, we introduce a metric called Hybrid
Accuracy to quantitatively assess the model's capability for hybrid thinking.
Extensive experimental results show that LHRMs can adaptively perform hybrid
thinking on queries of varying difficulty and type. It outperforms existing
LRMs and LLMs in reasoning and general capabilities while significantly
improving efficiency. Together, our work advocates for a reconsideration of the
appropriate use of extended thinking processes and provides a solid starting
point for building hybrid thinking systems.