Le LLM possono facilmente imparare a ragionare dalle dimostrazioni. La struttura, non il contenuto, è ciò che conta!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
February 11, 2025
Autori: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
cs.AI
Abstract
I modelli di ragionamento di grandi dimensioni (LRM) affrontano problemi complessi di ragionamento seguendo lunghe catene di pensiero (Long CoT) che incorporano riflessione, backtracking e autovalidazione. Tuttavia, le tecniche di addestramento e i requisiti di dati per ottenere Long CoT rimangono scarsamente compresi. In questo lavoro, scopriamo che un grande modello linguistico (LLM) può apprendere efficacemente il ragionamento Long CoT attraverso il fine-tuning supervisionato efficiente dei dati (SFT) e l'adattamento a basso rango efficiente dei parametri (LoRA). Con soli 17k campioni di addestramento Long CoT, il modello Qwen2.5-32B-Instruct ottiene miglioramenti significativi su una vasta gamma di benchmark matematici e di codifica, inclusi il 56,7% (+40,0%) su AIME 2024 e il 57,0% (+8,1%) su LiveCodeBench, competitivi con il punteggio del modello proprietario o1-preview del 44,6% e del 59,1%. Inoltre, scopriamo che la struttura del Long CoT è fondamentale per il processo di apprendimento, mentre il contenuto dei singoli passaggi di ragionamento ha un impatto minimo. Perturbazioni che influenzano il contenuto, come l'addestramento su campioni incorretti o la rimozione di parole chiave di ragionamento, hanno scarso impatto sulle prestazioni. Al contrario, le modifiche strutturali che interrompono la coerenza logica nel Long CoT, come mescolare o eliminare passaggi di ragionamento, degradano significativamente l'accuratezza. Ad esempio, un modello addestrato su campioni Long CoT con risposte incorrette ottiene comunque solo una precisione inferiore del 3,2% rispetto all'addestramento con campioni completamente corretti. Queste intuizioni approfondiscono la nostra comprensione su come suscitare capacità di ragionamento nei LLM e evidenziano considerazioni chiave per addestrare efficientemente la prossima generazione di modelli di ragionamento. Questo è il paper accademico del nostro modello Sky-T1-32B-Preview rilasciato in precedenza. I codici sono disponibili su https://github.com/NovaSky-AI/SkyThought.
English
Large reasoning models (LRMs) tackle complex reasoning problems by following
long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking,
and self-validation. However, the training techniques and data requirements to
elicit Long CoT remain poorly understood. In this work, we find that a Large
Language model (LLM) can effectively learn Long CoT reasoning through
data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank
adaptation (LoRA). With just 17k long CoT training samples, the
Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of
math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0%
(+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's
score of 44.6% and 59.1%. More importantly, we find that the structure of Long
CoT is critical to the learning process, whereas the content of individual
reasoning steps has minimal impact. Perturbations affecting content, such as
training on incorrect samples or removing reasoning keywords, have little
impact on performance. In contrast, structural modifications that disrupt
logical consistency in the Long CoT, such as shuffling or deleting reasoning
steps, significantly degrade accuracy. For example, a model trained on Long CoT
samples with incorrect answers still achieves only 3.2% lower accuracy compared
to training with fully correct samples. These insights deepen our understanding
of how to elicit reasoning capabilities in LLMs and highlight key
considerations for efficiently training the next generation of reasoning
models. This is the academic paper of our previous released Sky-T1-32B-Preview
model. Codes are available at https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary