Le LLM possono facilmente imparare a ragionare dalle dimostrazioni. La struttura, non il contenuto, è ciò che conta!

Abstract

I modelli di ragionamento di grandi dimensioni (LRM) affrontano problemi complessi di ragionamento seguendo lunghe catene di pensiero (Long CoT) che incorporano riflessione, backtracking e autovalidazione. Tuttavia, le tecniche di addestramento e i requisiti di dati per ottenere Long CoT rimangono scarsamente compresi. In questo lavoro, scopriamo che un grande modello linguistico (LLM) può apprendere efficacemente il ragionamento Long CoT attraverso il fine-tuning supervisionato efficiente dei dati (SFT) e l'adattamento a basso rango efficiente dei parametri (LoRA). Con soli 17k campioni di addestramento Long CoT, il modello Qwen2.5-32B-Instruct ottiene miglioramenti significativi su una vasta gamma di benchmark matematici e di codifica, inclusi il 56,7% (+40,0%) su AIME 2024 e il 57,0% (+8,1%) su LiveCodeBench, competitivi con il punteggio del modello proprietario o1-preview del 44,6% e del 59,1%. Inoltre, scopriamo che la struttura del Long CoT è fondamentale per il processo di apprendimento, mentre il contenuto dei singoli passaggi di ragionamento ha un impatto minimo. Perturbazioni che influenzano il contenuto, come l'addestramento su campioni incorretti o la rimozione di parole chiave di ragionamento, hanno scarso impatto sulle prestazioni. Al contrario, le modifiche strutturali che interrompono la coerenza logica nel Long CoT, come mescolare o eliminare passaggi di ragionamento, degradano significativamente l'accuratezza. Ad esempio, un modello addestrato su campioni Long CoT con risposte incorrette ottiene comunque solo una precisione inferiore del 3,2% rispetto all'addestramento con campioni completamente corretti. Queste intuizioni approfondiscono la nostra comprensione su come suscitare capacità di ragionamento nei LLM e evidenziano considerazioni chiave per addestrare efficientemente la prossima generazione di modelli di ragionamento. Questo è il paper accademico del nostro modello Sky-T1-32B-Preview rilasciato in precedenza. I codici sono disponibili su https://github.com/NovaSky-AI/SkyThought.

English

Large reasoning models (LRMs) tackle complex reasoning problems by following long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking, and self-validation. However, the training techniques and data requirements to elicit Long CoT remain poorly understood. In this work, we find that a Large Language model (LLM) can effectively learn Long CoT reasoning through data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank adaptation (LoRA). With just 17k long CoT training samples, the Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0% (+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's score of 44.6% and 59.1%. More importantly, we find that the structure of Long CoT is critical to the learning process, whereas the content of individual reasoning steps has minimal impact. Perturbations affecting content, such as training on incorrect samples or removing reasoning keywords, have little impact on performance. In contrast, structural modifications that disrupt logical consistency in the Long CoT, such as shuffling or deleting reasoning steps, significantly degrade accuracy. For example, a model trained on Long CoT samples with incorrect answers still achieves only 3.2% lower accuracy compared to training with fully correct samples. These insights deepen our understanding of how to elicit reasoning capabilities in LLMs and highlight key considerations for efficiently training the next generation of reasoning models. This is the academic paper of our previous released Sky-T1-32B-Preview model. Codes are available at https://github.com/NovaSky-AI/SkyThought.

Le LLM possono facilmente imparare a ragionare dalle dimostrazioni. La struttura, non il contenuto, è ciò che conta!

LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Abstract

Support