ChatPaper.aiChatPaper

Les LLM peuvent facilement apprendre à raisonner à partir de démonstrations. La structure, et non le contenu, est ce qui importe !

LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

February 11, 2025
Auteurs: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
cs.AI

Résumé

Les grands modèles de raisonnement (GMR) abordent des problèmes de raisonnement complexes en suivant de longues chaînes de réflexion (Long CoT) qui intègrent la réflexion, le retour en arrière et l'auto-validation. Cependant, les techniques d'entraînement et les exigences en données pour susciter des Long CoT restent mal comprises. Dans ce travail, nous constatons qu'un grand modèle de langage (GLM) peut apprendre efficacement le raisonnement Long CoT grâce à un fine-tuning supervisé efficace en données (SFT) et à une adaptation à faible rang de paramètres (LoRA). Avec seulement 17 000 échantillons d'entraînement Long CoT, le modèle Qwen2.5-32B-Instruct obtient des améliorations significatives sur un large éventail de bancs d'essai en mathématiques et en codage, y compris 56,7 % (+40,0 %) sur AIME 2024 et 57,0 % (+8,1 %) sur LiveCodeBench, compétitif par rapport au score du modèle propriétaire o1-preview de 44,6 % et 59,1 %. Plus important encore, nous constatons que la structure du Long CoT est cruciale pour le processus d'apprentissage, tandis que le contenu des étapes de raisonnement individuelles a un impact minimal. Les perturbations affectant le contenu, telles que l'entraînement sur des échantillons incorrects ou la suppression de mots-clés de raisonnement, ont peu d'impact sur les performances. En revanche, les modifications structurelles qui perturbent la cohérence logique dans le Long CoT, telles que le mélange ou la suppression des étapes de raisonnement, dégradent significativement la précision. Par exemple, un modèle entraîné sur des échantillons Long CoT avec des réponses incorrectes n'obtient qu'une précision inférieure de 3,2 % par rapport à l'entraînement avec des échantillons entièrement corrects. Ces observations approfondissent notre compréhension de la manière de susciter les capacités de raisonnement dans les GLM et mettent en évidence les considérations clés pour l'entraînement efficace de la prochaine génération de modèles de raisonnement. Il s'agit de l'article académique de notre modèle Sky-T1-32B-Preview précédemment publié. Les codes sont disponibles sur https://github.com/NovaSky-AI/SkyThought.
English
Large reasoning models (LRMs) tackle complex reasoning problems by following long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking, and self-validation. However, the training techniques and data requirements to elicit Long CoT remain poorly understood. In this work, we find that a Large Language model (LLM) can effectively learn Long CoT reasoning through data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank adaptation (LoRA). With just 17k long CoT training samples, the Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0% (+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's score of 44.6% and 59.1%. More importantly, we find that the structure of Long CoT is critical to the learning process, whereas the content of individual reasoning steps has minimal impact. Perturbations affecting content, such as training on incorrect samples or removing reasoning keywords, have little impact on performance. In contrast, structural modifications that disrupt logical consistency in the Long CoT, such as shuffling or deleting reasoning steps, significantly degrade accuracy. For example, a model trained on Long CoT samples with incorrect answers still achieves only 3.2% lower accuracy compared to training with fully correct samples. These insights deepen our understanding of how to elicit reasoning capabilities in LLMs and highlight key considerations for efficiently training the next generation of reasoning models. This is the academic paper of our previous released Sky-T1-32B-Preview model. Codes are available at https://github.com/NovaSky-AI/SkyThought.

Summary

AI-Generated Summary

PDF392February 12, 2025