AdaR1: От Long-CoT к Hybrid-CoT через двухуровневую оптимизацию адаптивного рассуждения
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
April 30, 2025
Авторы: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI
Аннотация
Недавно модели рассуждений с длинными цепочками мыслей (Long-CoT) продемонстрировали высокую производительность на сложных задачах, требующих рассуждений, однако часто сопровождаются значительными вычислительными затратами, что делает эффективность критически важной. Наш эмпирический анализ показывает, что польза от использования Long-CoT варьируется в зависимости от задачи: в то время как для некоторых задач требуется детальное рассуждение, для других оно не дает улучшений или даже снижает точность. Это мотивирует разработку адаптивных стратегий рассуждений, которые подстраивают глубину рассуждений под входные данные. Однако предыдущие работы в основном сосредоточены на сокращении избыточности в длинных цепочках рассуждений, ограничивая исследование более эффективных стратегий за пределами парадигмы Long-CoT. Для решения этой проблемы мы предлагаем новый двухэтапный фреймворк для адаптивных и эффективных рассуждений. Во-первых, мы создаем гибридную модель рассуждений, объединяя модели с длинными и короткими цепочками мыслей (CoT), чтобы обеспечить разнообразие стилей рассуждений. Во-вторых, мы применяем двухуровневое обучение с предпочтениями, чтобы направлять модель на выбор подходящих стилей рассуждений (на уровне группы) и предпочтение кратких и корректных рассуждений внутри каждой группы стилей (на уровне экземпляра). Эксперименты показывают, что наш метод значительно снижает вычислительные затраты по сравнению с другими базовыми подходами, сохраняя при этом производительность. В частности, на пяти математических наборах данных средняя длина рассуждений сокращается более чем на 50%, что подчеркивает потенциал адаптивных стратегий для оптимизации эффективности рассуждений в больших языковых моделях. Наш код скоро будет доступен по адресу https://github.com/StarDewXXX/AdaR1.
English
Recently, long-thought reasoning models achieve strong performance on complex
reasoning tasks, but often incur substantial inference overhead, making
efficiency a critical concern. Our empirical analysis reveals that the benefit
of using Long-CoT varies across problems: while some problems require elaborate
reasoning, others show no improvement, or even degraded accuracy. This
motivates adaptive reasoning strategies that tailor reasoning depth to the
input. However, prior work primarily reduces redundancy within long reasoning
paths, limiting exploration of more efficient strategies beyond the Long-CoT
paradigm. To address this, we propose a novel two-stage framework for adaptive
and efficient reasoning. First, we construct a hybrid reasoning model by
merging long and short CoT models to enable diverse reasoning styles. Second,
we apply bi-level preference training to guide the model to select suitable
reasoning styles (group-level), and prefer concise and correct reasoning within
each style group (instance-level). Experiments demonstrate that our method
significantly reduces inference costs compared to other baseline approaches,
while maintaining performance. Notably, on five mathematical datasets, the
average length of reasoning is reduced by more than 50%, highlighting the
potential of adaptive strategies to optimize reasoning efficiency in large
language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1Summary
AI-Generated Summary