AdaR1: 이중 수준 적응형 추론 최적화를 통한 Long-CoT에서 Hybrid-CoT로의 전환
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
April 30, 2025
저자: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI
초록
최근, 장기 추론 모델들은 복잡한 추론 과제에서 강력한 성능을 보여주고 있지만, 상당한 추론 오버헤드를 초래하여 효율성이 중요한 문제로 대두되고 있습니다. 우리의 실증적 분석에 따르면, Long-CoT를 사용하는 이점은 문제에 따라 다양합니다: 일부 문제는 정교한 추론을 필요로 하는 반면, 다른 문제들은 개선이 없거나 오히려 정확도가 저하되는 경우도 있습니다. 이는 입력에 맞게 추론 깊이를 조정하는 적응형 추론 전략의 필요성을 시사합니다. 그러나 기존 연구는 주로 긴 추론 경로 내의 중복성을 줄이는 데 초점을 맞추어, Long-CoT 패러다임을 넘어서는 더 효율적인 전략의 탐구가 제한적이었습니다. 이를 해결하기 위해, 우리는 적응적이고 효율적인 추론을 위한 새로운 두 단계 프레임워크를 제안합니다. 첫째, 긴 CoT 모델과 짧은 CoT 모델을 통합하여 다양한 추론 스타일을 가능하게 하는 하이브리드 추론 모델을 구축합니다. 둘째, 그룹 수준에서 적합한 추론 스타일을 선택하고, 각 스타일 그룹 내에서 간결하고 정확한 추론을 선호하도록 이중 수준 선호도 훈련을 적용합니다. 실험 결과, 우리의 방법은 다른 베이스라인 접근법에 비해 추론 비용을 크게 줄이면서도 성능을 유지하는 것으로 나타났습니다. 특히, 다섯 개의 수학 데이터셋에서 추론의 평균 길이가 50% 이상 감소하여, 대규모 언어 모델에서 추론 효율성을 최적화하는 적응형 전략의 잠재력을 강조합니다. 우리의 코드는 곧 https://github.com/StarDewXXX/AdaR1에서 공개될 예정입니다.
English
Recently, long-thought reasoning models achieve strong performance on complex
reasoning tasks, but often incur substantial inference overhead, making
efficiency a critical concern. Our empirical analysis reveals that the benefit
of using Long-CoT varies across problems: while some problems require elaborate
reasoning, others show no improvement, or even degraded accuracy. This
motivates adaptive reasoning strategies that tailor reasoning depth to the
input. However, prior work primarily reduces redundancy within long reasoning
paths, limiting exploration of more efficient strategies beyond the Long-CoT
paradigm. To address this, we propose a novel two-stage framework for adaptive
and efficient reasoning. First, we construct a hybrid reasoning model by
merging long and short CoT models to enable diverse reasoning styles. Second,
we apply bi-level preference training to guide the model to select suitable
reasoning styles (group-level), and prefer concise and correct reasoning within
each style group (instance-level). Experiments demonstrate that our method
significantly reduces inference costs compared to other baseline approaches,
while maintaining performance. Notably, on five mathematical datasets, the
average length of reasoning is reduced by more than 50%, highlighting the
potential of adaptive strategies to optimize reasoning efficiency in large
language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1Summary
AI-Generated Summary