Расшифровка длинных цепочек рассуждений в LLMs
Demystifying Long Chain-of-Thought Reasoning in LLMs
February 5, 2025
Авторы: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
cs.AI
Аннотация
Масштабирование вычислений вывода улучшает рассуждения в больших языковых моделях (LLM), с длинными цепочками мыслей (CoTs), позволяющими стратегии, такие как откат и коррекция ошибок. Обучение с подкреплением (RL) стало ключевым методом для развития этих способностей, однако условия, при которых возникают длинные CoTs, остаются неясными, и обучение RL требует тщательного выбора дизайна. В данном исследовании мы систематически исследуем механику длинного рассуждения CoT, выявляя ключевые факторы, способствующие генерации моделями длинных траекторий CoT. Через обширные эксперименты по обучению с учителем (SFT) и RL мы представляем четыре основных результатa: (1) Хотя SFT не является строго необходимым, он упрощает обучение и повышает эффективность; (2) Способности к рассуждению обычно появляются с увеличением вычислительных ресурсов для обучения, но их развитие не гарантировано, поэтому формирование вознаграждения критично для стабилизации роста длины CoT; (3) Масштабирование проверяемых сигналов вознаграждения критично для RL. Мы обнаружили, что использование шумных, извлеченных из веба решений с механизмами фильтрации обладает большим потенциалом, особенно для задач вне распределения (OOD), таких как рассуждения в области STEM; и (4) Основные способности, такие как коррекция ошибок, встроены в базовые модели, однако стимулирование этих навыков эффективно для сложных задач через RL требует значительных вычислительных ресурсов, и измерение их появления требует тонкого подхода. Эти исследования предоставляют практическое руководство по оптимизации стратегий обучения для улучшения длинного рассуждения CoT в LLM. Наш код доступен по ссылке: https://github.com/eddycmu/demystify-long-cot.
English
Scaling inference compute enhances reasoning in large language models (LLMs),
with long chains-of-thought (CoTs) enabling strategies like backtracking and
error correction. Reinforcement learning (RL) has emerged as a crucial method
for developing these capabilities, yet the conditions under which long CoTs
emerge remain unclear, and RL training requires careful design choices. In this
study, we systematically investigate the mechanics of long CoT reasoning,
identifying the key factors that enable models to generate long CoT
trajectories. Through extensive supervised fine-tuning (SFT) and RL
experiments, we present four main findings: (1) While SFT is not strictly
necessary, it simplifies training and improves efficiency; (2) Reasoning
capabilities tend to emerge with increased training compute, but their
development is not guaranteed, making reward shaping crucial for stabilizing
CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We
find that leveraging noisy, web-extracted solutions with filtering mechanisms
shows strong potential, particularly for out-of-distribution (OOD) tasks such
as STEM reasoning; and (4) Core abilities like error correction are inherently
present in base models, but incentivizing these skills effectively for complex
tasks via RL demands significant compute, and measuring their emergence
requires a nuanced approach. These insights provide practical guidance for
optimizing training strategies to enhance long CoT reasoning in LLMs. Our code
is available at: https://github.com/eddycmu/demystify-long-cot.Summary
AI-Generated Summary