ChatPaper.aiChatPaper

AdaR1: De Long-CoT para Hybrid-CoT via Otimização de Raciocínio Bi-Nível Adaptativo

AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization

April 30, 2025
Autores: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI

Resumo

Recentemente, modelos de raciocínio de longa duração alcançaram desempenho forte em tarefas complexas de raciocínio, mas frequentemente incorrem em sobrecarga substancial de inferência, tornando a eficiência uma preocupação crítica. Nossa análise empírica revela que o benefício de usar o Long-CoT varia entre os problemas: enquanto alguns problemas exigem raciocínio elaborado, outros não mostram melhoria, ou até mesmo apresentam precisão reduzida. Isso motiva estratégias de raciocínio adaptativas que ajustam a profundidade do raciocínio à entrada. No entanto, trabalhos anteriores reduzem principalmente a redundância dentro de caminhos de raciocínio longos, limitando a exploração de estratégias mais eficientes além do paradigma Long-CoT. Para abordar isso, propomos uma nova estrutura de duas etapas para raciocínio adaptativo e eficiente. Primeiro, construímos um modelo de raciocínio híbrido ao mesclar modelos CoT longos e curtos para permitir estilos de raciocínio diversos. Segundo, aplicamos treinamento de preferência bi-nível para guiar o modelo a selecionar estilos de raciocínio adequados (nível de grupo) e preferir raciocínio conciso e correto dentro de cada grupo de estilo (nível de instância). Experimentos demonstram que nosso método reduz significativamente os custos de inferência em comparação com outras abordagens de linha de base, mantendo o desempenho. Notavelmente, em cinco conjuntos de dados matemáticos, o comprimento médio do raciocínio é reduzido em mais de 50%, destacando o potencial de estratégias adaptativas para otimizar a eficiência do raciocínio em modelos de linguagem grandes. Nosso código estará disponível em breve em https://github.com/StarDewXXX/AdaR1.
English
Recently, long-thought reasoning models achieve strong performance on complex reasoning tasks, but often incur substantial inference overhead, making efficiency a critical concern. Our empirical analysis reveals that the benefit of using Long-CoT varies across problems: while some problems require elaborate reasoning, others show no improvement, or even degraded accuracy. This motivates adaptive reasoning strategies that tailor reasoning depth to the input. However, prior work primarily reduces redundancy within long reasoning paths, limiting exploration of more efficient strategies beyond the Long-CoT paradigm. To address this, we propose a novel two-stage framework for adaptive and efficient reasoning. First, we construct a hybrid reasoning model by merging long and short CoT models to enable diverse reasoning styles. Second, we apply bi-level preference training to guide the model to select suitable reasoning styles (group-level), and prefer concise and correct reasoning within each style group (instance-level). Experiments demonstrate that our method significantly reduces inference costs compared to other baseline approaches, while maintaining performance. Notably, on five mathematical datasets, the average length of reasoning is reduced by more than 50%, highlighting the potential of adaptive strategies to optimize reasoning efficiency in large language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1
PDF141May 4, 2025