LLMs können leicht lernen, aus Demonstrationen zu schlussfolgern. Struktur, nicht Inhalt, ist entscheidend!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
February 11, 2025
Autoren: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
cs.AI
Zusammenfassung
Große Begründungsmodelle (LRMs) bewältigen komplexe Begründungsprobleme, indem sie langen Gedankenketten (Long CoT) folgen, die Reflexion, Rückverfolgung und Selbstvalidierung beinhalten. Die Trainingsmethoden und Datenanforderungen zur Erzeugung von Long CoT sind jedoch noch unzureichend verstanden. In dieser Arbeit stellen wir fest, dass ein Großes Sprachmodell (LLM) effektiv langes CoT-Argumentieren durch dateneffizientes überwachtes Feintuning (SFT) und parameter-effiziente Niederrang-Anpassung (LoRA) erlernen kann. Mit nur 17.000 langen CoT-Trainingsdaten erzielt das Qwen2.5-32B-Instruct-Modell signifikante Verbesserungen in einer Vielzahl von Mathematik- und Programmier-Benchmarks, einschließlich 56,7% (+40,0%) bei AIME 2024 und 57,0% (+8,1%) bei LiveCodeBench, wettbewerbsfähig mit dem proprietären o1-preview-Modell, das 44,6% und 59,1% erreicht. Vor allem stellen wir fest, dass die Struktur von Long CoT für den Lernprozess entscheidend ist, während der Inhalt einzelner Argumentationsschritte nur minimalen Einfluss hat. Störungen, die den Inhalt betreffen, wie das Training mit falschen Daten oder das Entfernen von Argumentations-Schlüsselwörtern, haben nur geringe Auswirkungen auf die Leistung. Strukturelle Änderungen, die die logische Konsistenz im Long CoT stören, wie das Umstellen oder Löschen von Argumentationsschritten, beeinträchtigen die Genauigkeit erheblich. Zum Beispiel erreicht ein Modell, das auf Long CoT-Daten mit falschen Antworten trainiert wurde, nur eine um 3,2% niedrigere Genauigkeit im Vergleich zum Training mit vollständig korrekten Daten. Diese Erkenntnisse vertiefen unser Verständnis dafür, wie man Begründungsfähigkeiten in LLMs hervorrufen kann, und heben wichtige Überlegungen für das effiziente Training der nächsten Generation von Begründungsmodellen hervor. Dies ist das wissenschaftliche Papier unseres zuvor veröffentlichten Sky-T1-32B-Preview-Modells. Der Code ist verfügbar unter https://github.com/NovaSky-AI/SkyThought.
English
Large reasoning models (LRMs) tackle complex reasoning problems by following
long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking,
and self-validation. However, the training techniques and data requirements to
elicit Long CoT remain poorly understood. In this work, we find that a Large
Language model (LLM) can effectively learn Long CoT reasoning through
data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank
adaptation (LoRA). With just 17k long CoT training samples, the
Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of
math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0%
(+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's
score of 44.6% and 59.1%. More importantly, we find that the structure of Long
CoT is critical to the learning process, whereas the content of individual
reasoning steps has minimal impact. Perturbations affecting content, such as
training on incorrect samples or removing reasoning keywords, have little
impact on performance. In contrast, structural modifications that disrupt
logical consistency in the Long CoT, such as shuffling or deleting reasoning
steps, significantly degrade accuracy. For example, a model trained on Long CoT
samples with incorrect answers still achieves only 3.2% lower accuracy compared
to training with fully correct samples. These insights deepen our understanding
of how to elicit reasoning capabilities in LLMs and highlight key
considerations for efficiently training the next generation of reasoning
models. This is the academic paper of our previous released Sky-T1-32B-Preview
model. Codes are available at https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary