LLM's kunnen gemakkelijk leren redeneren vanuit demonstraties. Structuur, niet inhoud, is wat telt!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
February 11, 2025
Auteurs: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
cs.AI
Samenvatting
Grote redeneringsmodellen (LRM's) pakken complexe redeneervraagstukken aan door lange gedachtegangen (Long CoT) te volgen die reflectie, terugkoppeling en zelfvalidatie bevatten. De trainingsmethoden en gegevensvereisten om Long CoT op te roepen blijven echter slecht begrepen. In dit werk vinden we dat een Groot Taalmodel (LLM) effectief lang CoT-redeneren kan leren door data-efficiënte begeleide fijnafstemming (SFT) en parameter-efficiënte lage-rang aanpassing (LoRA). Met slechts 17k lange CoT-trainingsvoorbeelden behaalt het Qwen2.5-32B-Instruct-model aanzienlijke verbeteringen op een breed scala aan wiskunde- en programmeerbenchmarks, waaronder 56,7% (+40,0%) op AIME 2024 en 57,0% (+8,1%) op LiveCodeBench, concurrerend met de score van het eigen o1-preview-model van 44,6% en 59,1%. Belangrijker nog is dat we ontdekken dat de structuur van Long CoT cruciaal is voor het leerproces, terwijl de inhoud van individuele redeneerstappen minimaal effect heeft. Verstoringen die de inhoud beïnvloeden, zoals trainen op onjuiste voorbeelden of redeneersleutelwoorden verwijderen, hebben weinig invloed op de prestaties. Daarentegen degraderen structurele wijzigingen die logische consistentie in de Long CoT verstoren, zoals schudden of verwijderen van redeneerstappen, de nauwkeurigheid aanzienlijk. Bijvoorbeeld, een model dat is getraind op Long CoT-voorbeelden met onjuiste antwoorden behaalt nog steeds slechts 3,2% lagere nauwkeurigheid in vergelijking met training met volledig correcte voorbeelden. Deze inzichten verdiepen ons begrip van hoe redeneervermogens in LLM's kunnen worden opgeroepen en benadrukken belangrijke overwegingen voor efficiënte training van de volgende generatie redeneringsmodellen. Dit is het academische artikel van ons eerder uitgebrachte Sky-T1-32B-Preview-model. De codes zijn beschikbaar op https://github.com/NovaSky-AI/SkyThought.
English
Large reasoning models (LRMs) tackle complex reasoning problems by following
long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking,
and self-validation. However, the training techniques and data requirements to
elicit Long CoT remain poorly understood. In this work, we find that a Large
Language model (LLM) can effectively learn Long CoT reasoning through
data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank
adaptation (LoRA). With just 17k long CoT training samples, the
Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of
math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0%
(+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's
score of 44.6% and 59.1%. More importantly, we find that the structure of Long
CoT is critical to the learning process, whereas the content of individual
reasoning steps has minimal impact. Perturbations affecting content, such as
training on incorrect samples or removing reasoning keywords, have little
impact on performance. In contrast, structural modifications that disrupt
logical consistency in the Long CoT, such as shuffling or deleting reasoning
steps, significantly degrade accuracy. For example, a model trained on Long CoT
samples with incorrect answers still achieves only 3.2% lower accuracy compared
to training with fully correct samples. These insights deepen our understanding
of how to elicit reasoning capabilities in LLMs and highlight key
considerations for efficiently training the next generation of reasoning
models. This is the academic paper of our previous released Sky-T1-32B-Preview
model. Codes are available at https://github.com/NovaSky-AI/SkyThought.