LLMs podem facilmente aprender a raciocinar a partir de demonstrações. Estrutura, não conteúdo, é o que importa!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
February 11, 2025
Autores: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
cs.AI
Resumo
Modelos de raciocínio extenso (LRMs) lidam com problemas complexos de raciocínio seguindo longas cadeias de pensamento (Long CoT) que incorporam reflexão, retrocesso e autovalidação. No entanto, as técnicas de treinamento e os requisitos de dados para evocar o Long CoT permanecem pouco compreendidos. Neste trabalho, descobrimos que um modelo de linguagem extenso (LLM) pode aprender efetivamente o raciocínio Long CoT por meio de ajustes finos supervisionados eficientes em dados (SFT) e adaptação eficiente de baixa patente (LoRA). Com apenas 17 mil amostras de treinamento de Long CoT, o modelo Qwen2.5-32B-Instruct alcança melhorias significativas em uma ampla gama de benchmarks de matemática e codificação, incluindo 56,7% (+40,0%) no AIME 2024 e 57,0% (+8,1%) no LiveCodeBench, competitivo com a pontuação do modelo proprietário o1-preview de 44,6% e 59,1%. Mais importante ainda, descobrimos que a estrutura do Long CoT é fundamental para o processo de aprendizagem, enquanto o conteúdo das etapas individuais de raciocínio tem impacto mínimo. Perturbações que afetam o conteúdo, como treinar em amostras incorretas ou remover palavras-chave de raciocínio, têm pouco impacto no desempenho. Em contraste, modificações estruturais que perturbam a consistência lógica no Long CoT, como embaralhar ou excluir etapas de raciocínio, degradam significativamente a precisão. Por exemplo, um modelo treinado em amostras de Long CoT com respostas incorretas ainda alcança apenas 3,2% a menos de precisão em comparação com o treinamento com amostras totalmente corretas. Essas percepções aprofundam nossa compreensão de como evocar capacidades de raciocínio em LLMs e destacam considerações-chave para treinar eficientemente a próxima geração de modelos de raciocínio. Este é o artigo acadêmico de nosso modelo Sky-T1-32B-Preview lançado anteriormente. Os códigos estão disponíveis em https://github.com/NovaSky-AI/SkyThought.
English
Large reasoning models (LRMs) tackle complex reasoning problems by following
long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking,
and self-validation. However, the training techniques and data requirements to
elicit Long CoT remain poorly understood. In this work, we find that a Large
Language model (LLM) can effectively learn Long CoT reasoning through
data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank
adaptation (LoRA). With just 17k long CoT training samples, the
Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of
math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0%
(+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's
score of 44.6% and 59.1%. More importantly, we find that the structure of Long
CoT is critical to the learning process, whereas the content of individual
reasoning steps has minimal impact. Perturbations affecting content, such as
training on incorrect samples or removing reasoning keywords, have little
impact on performance. In contrast, structural modifications that disrupt
logical consistency in the Long CoT, such as shuffling or deleting reasoning
steps, significantly degrade accuracy. For example, a model trained on Long CoT
samples with incorrect answers still achieves only 3.2% lower accuracy compared
to training with fully correct samples. These insights deepen our understanding
of how to elicit reasoning capabilities in LLMs and highlight key
considerations for efficiently training the next generation of reasoning
models. This is the academic paper of our previous released Sky-T1-32B-Preview
model. Codes are available at https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary