LLM-модели могут легко научиться рассуждать по структуре демонстраций. Важна не сама информация, а ее структура!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
February 11, 2025
Авторы: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
cs.AI
Аннотация
Большие модели рассуждений (Large Reasoning Models, LRMs) решают сложные проблемы рассуждений, следуя длинным цепям мыслей (Long CoT), которые включают в себя отражение, откат и самопроверку. Однако методики обучения и требования к данным для вызова Long CoT остаются плохо понятыми. В данной работе мы обнаружили, что Большая Языковая модель (Large Language Model, LLM) может эффективно изучать рассуждения Long CoT через эффективное обучение с учителем на основе данных (Data-Efficient Supervised Fine-Tuning, SFT) и параметрически эффективную адаптацию низкого ранга (Parameter-Efficient Low-Rank Adaptation, LoRA). С помощью всего 17 тыс. обучающих выборок Long CoT модель Qwen2.5-32B-Instruct достигает значительных улучшений на широком спектре математических и кодовых бенчмарков, включая 56,7% (+40,0%) на AIME 2024 и 57,0% (+8,1%) на LiveCodeBench, конкурентоспособно по сравнению со счетом собственной модели o1-preview в размере 44,6% и 59,1%. Более того, мы обнаружили, что структура Long CoT критична для процесса обучения, в то время как содержание отдельных шагов рассуждений оказывает минимальное влияние. Воздействия, затрагивающие содержание, такие как обучение на неправильных образцах или удаление ключевых слов рассуждения, имеют незначительное влияние на производительность. В отличие от этого, структурные модификации, нарушающие логическую последовательность в Long CoT, такие как перетасовка или удаление шагов рассуждений, значительно снижают точность. Например, модель, обученная на образцах Long CoT с неправильными ответами, все равно достигает лишь на 3,2% более низкой точности по сравнению с обучением на полностью правильных образцах. Эти умозаключения углубляют наше понимание того, как вызывать рассуждательные способности в LLM и выделяют ключевые соображения для эффективного обучения следующего поколения моделей рассуждений. Это академическая статья нашей предыдущей выпущенной модели Sky-T1-32B-Preview. Коды доступны по ссылке https://github.com/NovaSky-AI/SkyThought.
English
Large reasoning models (LRMs) tackle complex reasoning problems by following
long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking,
and self-validation. However, the training techniques and data requirements to
elicit Long CoT remain poorly understood. In this work, we find that a Large
Language model (LLM) can effectively learn Long CoT reasoning through
data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank
adaptation (LoRA). With just 17k long CoT training samples, the
Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of
math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0%
(+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's
score of 44.6% and 59.1%. More importantly, we find that the structure of Long
CoT is critical to the learning process, whereas the content of individual
reasoning steps has minimal impact. Perturbations affecting content, such as
training on incorrect samples or removing reasoning keywords, have little
impact on performance. In contrast, structural modifications that disrupt
logical consistency in the Long CoT, such as shuffling or deleting reasoning
steps, significantly degrade accuracy. For example, a model trained on Long CoT
samples with incorrect answers still achieves only 3.2% lower accuracy compared
to training with fully correct samples. These insights deepen our understanding
of how to elicit reasoning capabilities in LLMs and highlight key
considerations for efficiently training the next generation of reasoning
models. This is the academic paper of our previous released Sky-T1-32B-Preview
model. Codes are available at https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary