ChatPaper.aiChatPaper

AdaR1 : De Long-CoT à Hybrid-CoT via une optimisation bi-niveau du raisonnement adaptatif

AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization

April 30, 2025
Auteurs: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI

Résumé

Récemment, les modèles de raisonnement à long terme ont obtenu des performances solides sur des tâches de raisonnement complexes, mais entraînent souvent des surcoûts d'inférence substantiels, ce qui rend l'efficacité une préoccupation critique. Notre analyse empirique révèle que l'avantage d'utiliser le Long-CoT varie selon les problèmes : alors que certains problèmes nécessitent un raisonnement élaboré, d'autres ne montrent aucune amélioration, voire une précision dégradée. Cela motive des stratégies de raisonnement adaptatives qui ajustent la profondeur du raisonnement à l'entrée. Cependant, les travaux antérieurs réduisent principalement la redondance dans les longs chemins de raisonnement, limitant l'exploration de stratégies plus efficaces au-delà du paradigme Long-CoT. Pour remédier à cela, nous proposons un cadre novateur en deux étapes pour un raisonnement adaptatif et efficace. Premièrement, nous construisons un modèle de raisonnement hybride en fusionnant des modèles CoT longs et courts pour permettre des styles de raisonnement diversifiés. Deuxièmement, nous appliquons un entraînement de préférence bi-niveau pour guider le modèle à sélectionner des styles de raisonnement appropriés (au niveau du groupe) et à privilégier un raisonnement concis et correct au sein de chaque groupe de style (au niveau de l'instance). Les expériences démontrent que notre méthode réduit significativement les coûts d'inférence par rapport aux autres approches de référence, tout en maintenant les performances. Notamment, sur cinq ensembles de données mathématiques, la longueur moyenne du raisonnement est réduite de plus de 50%, mettant en évidence le potentiel des stratégies adaptatives pour optimiser l'efficacité du raisonnement dans les grands modèles de langage. Notre code sera bientôt disponible à l'adresse https://github.com/StarDewXXX/AdaR1.
English
Recently, long-thought reasoning models achieve strong performance on complex reasoning tasks, but often incur substantial inference overhead, making efficiency a critical concern. Our empirical analysis reveals that the benefit of using Long-CoT varies across problems: while some problems require elaborate reasoning, others show no improvement, or even degraded accuracy. This motivates adaptive reasoning strategies that tailor reasoning depth to the input. However, prior work primarily reduces redundancy within long reasoning paths, limiting exploration of more efficient strategies beyond the Long-CoT paradigm. To address this, we propose a novel two-stage framework for adaptive and efficient reasoning. First, we construct a hybrid reasoning model by merging long and short CoT models to enable diverse reasoning styles. Second, we apply bi-level preference training to guide the model to select suitable reasoning styles (group-level), and prefer concise and correct reasoning within each style group (instance-level). Experiments demonstrate that our method significantly reduces inference costs compared to other baseline approaches, while maintaining performance. Notably, on five mathematical datasets, the average length of reasoning is reduced by more than 50%, highlighting the potential of adaptive strategies to optimize reasoning efficiency in large language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1

Summary

AI-Generated Summary

PDF81May 4, 2025