Aufwärmen vor dem Training: Allgemeines Denkvermögen in ressourcenbeschränkten Umgebungen freisetzen
Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings
May 19, 2025
Autoren: Safal Shrestha, Minwu Kim, Aadim Nepal, Anubhav Shrestha, Keith Ross
cs.AI
Zusammenfassung
Die Entwicklung effektiver, vernunftfähiger LLMs (Large Language Models) erfordert in der Regel ein Training mittels Reinforcement Learning mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) oder eine Destillation mit sorgfältig kuratierten langen Gedankenketten (Long Chain of Thoughts, CoT), die beide stark auf umfangreiche Trainingsdaten angewiesen sind. Dies stellt eine große Herausforderung dar, wenn die Menge an qualitativ hochwertigen Trainingsdaten begrenzt ist. Wir schlagen eine probeneffiziente, zweistufige Trainingsstrategie vor, um vernunftfähige LLMs unter begrenzter Aufsicht zu entwickeln. In der ersten Stufe „wärmen“ wir das Modell auf, indem wir lange CoTs aus einem Spielbereich, nämlich den Knights & Knaves (K&K)-Logikrätseln, destillieren, um allgemeine Denkfähigkeiten zu erwerben. In der zweiten Stufe wenden wir RLVR auf das aufgewärmte Modell an, wobei wir eine begrenzte Anzahl von Beispielen aus dem Zielbereich verwenden. Unsere Experimente zeigen, dass dieser zweiphasige Ansatz mehrere Vorteile bietet: (i) Die Aufwärmphase allein fördert generalisiertes Denken und führt zu Leistungsverbesserungen bei einer Reihe von Aufgaben, darunter MATH, HumanEval⁺ und MMLU-Pro. (ii) Wenn sowohl das Basismodell als auch das aufgewärmte Modell mit RLVR auf demselben kleinen Datensatz (≤100 Beispiele) trainiert werden, übertrifft das aufgewärmte Modell das Basismodell konsistent. (iii) Das Aufwärmen vor dem RLVR-Training ermöglicht es einem Modell, die domänenübergreifende Generalisierbarkeit auch nach dem Training in einer spezifischen Domäne beizubehalten. (iv) Die Einführung der Aufwärmphase in den Prozess verbessert nicht nur die Genauigkeit, sondern auch die Gesamtprobeneffizienz während des RLVR-Trainings. Die Ergebnisse dieser Arbeit unterstreichen das Potenzial des Aufwärmens für den Aufbau robuster, vernunftfähiger LLMs in datenarmen Umgebungen.
English
Designing effective reasoning-capable LLMs typically requires training using
Reinforcement Learning with Verifiable Rewards (RLVR) or distillation with
carefully curated Long Chain of Thoughts (CoT), both of which depend heavily on
extensive training data. This creates a major challenge when the amount of
quality training data is scarce. We propose a sample-efficient, two-stage
training strategy to develop reasoning LLMs under limited supervision. In the
first stage, we "warm up" the model by distilling Long CoTs from a toy domain,
namely, Knights \& Knaves (K\&K) logic puzzles to acquire general reasoning
skills. In the second stage, we apply RLVR to the warmed-up model using a
limited set of target-domain examples. Our experiments demonstrate that this
two-phase approach offers several benefits: (i) the warmup phase alone
facilitates generalized reasoning, leading to performance improvements across a
range of tasks, including MATH, HumanEval^{+}, and MMLU-Pro. (ii) When both
the base model and the warmed-up model are RLVR trained on the same small
dataset (leq100 examples), the warmed-up model consistently outperforms the
base model; (iii) Warming up before RLVR training allows a model to maintain
cross-domain generalizability even after training on a specific domain; (iv)
Introducing warmup in the pipeline improves not only accuracy but also overall
sample efficiency during RLVR training. The results in this paper highlight the
promise of warmup for building robust reasoning LLMs in data-scarce
environments.Summary
AI-Generated Summary