ChatPaper.aiChatPaper

AdaR1: От Long-CoT к Hybrid-CoT через двухуровневую оптимизацию адаптивного рассуждения

AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization

April 30, 2025
Авторы: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI

Аннотация

Недавно модели рассуждений с длинными цепочками мыслей (Long-CoT) продемонстрировали высокую производительность на сложных задачах, требующих рассуждений, однако часто сопровождаются значительными вычислительными затратами, что делает эффективность критически важной. Наш эмпирический анализ показывает, что польза от использования Long-CoT варьируется в зависимости от задачи: в то время как для некоторых задач требуется детальное рассуждение, для других оно не дает улучшений или даже снижает точность. Это мотивирует разработку адаптивных стратегий рассуждений, которые подстраивают глубину рассуждений под входные данные. Однако предыдущие работы в основном сосредоточены на сокращении избыточности в длинных цепочках рассуждений, ограничивая исследование более эффективных стратегий за пределами парадигмы Long-CoT. Для решения этой проблемы мы предлагаем новый двухэтапный фреймворк для адаптивных и эффективных рассуждений. Во-первых, мы создаем гибридную модель рассуждений, объединяя модели с длинными и короткими цепочками мыслей (CoT), чтобы обеспечить разнообразие стилей рассуждений. Во-вторых, мы применяем двухуровневое обучение с предпочтениями, чтобы направлять модель на выбор подходящих стилей рассуждений (на уровне группы) и предпочтение кратких и корректных рассуждений внутри каждой группы стилей (на уровне экземпляра). Эксперименты показывают, что наш метод значительно снижает вычислительные затраты по сравнению с другими базовыми подходами, сохраняя при этом производительность. В частности, на пяти математических наборах данных средняя длина рассуждений сокращается более чем на 50%, что подчеркивает потенциал адаптивных стратегий для оптимизации эффективности рассуждений в больших языковых моделях. Наш код скоро будет доступен по адресу https://github.com/StarDewXXX/AdaR1.
English
Recently, long-thought reasoning models achieve strong performance on complex reasoning tasks, but often incur substantial inference overhead, making efficiency a critical concern. Our empirical analysis reveals that the benefit of using Long-CoT varies across problems: while some problems require elaborate reasoning, others show no improvement, or even degraded accuracy. This motivates adaptive reasoning strategies that tailor reasoning depth to the input. However, prior work primarily reduces redundancy within long reasoning paths, limiting exploration of more efficient strategies beyond the Long-CoT paradigm. To address this, we propose a novel two-stage framework for adaptive and efficient reasoning. First, we construct a hybrid reasoning model by merging long and short CoT models to enable diverse reasoning styles. Second, we apply bi-level preference training to guide the model to select suitable reasoning styles (group-level), and prefer concise and correct reasoning within each style group (instance-level). Experiments demonstrate that our method significantly reduces inference costs compared to other baseline approaches, while maintaining performance. Notably, on five mathematical datasets, the average length of reasoning is reduced by more than 50%, highlighting the potential of adaptive strategies to optimize reasoning efficiency in large language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1

Summary

AI-Generated Summary

PDF81May 4, 2025