Échauffez-vous avant de vous entraîner : Débloquer le raisonnement général dans des contextes à ressources limitées
Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings
May 19, 2025
Auteurs: Safal Shrestha, Minwu Kim, Aadim Nepal, Anubhav Shrestha, Keith Ross
cs.AI
Résumé
La conception de modèles de langage à grande échelle (LLM) capables de raisonnement efficace nécessite généralement un entraînement utilisant l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ou une distillation avec des chaînes de pensée longues (CoT) soigneusement sélectionnées, deux approches qui dépendent fortement de vastes quantités de données d'entraînement. Cela représente un défi majeur lorsque la quantité de données d'entraînement de qualité est limitée. Nous proposons une stratégie d'entraînement en deux étapes, économe en échantillons, pour développer des LLM capables de raisonnement sous supervision limitée. Dans la première étape, nous "préchauffons" le modèle en distillant des CoT longues à partir d'un domaine simplifié, à savoir les énigmes logiques des Chevaliers et des Valets (K&K), afin d'acquérir des compétences de raisonnement générales. Dans la deuxième étape, nous appliquons le RLVR au modèle préchauffé en utilisant un ensemble limité d'exemples du domaine cible. Nos expériences démontrent que cette approche en deux phases offre plusieurs avantages : (i) la phase de préchauffage seule facilite un raisonnement généralisé, conduisant à des améliorations de performance sur une gamme de tâches, notamment MATH, HumanEval⁺ et MMLU-Pro ; (ii) lorsque le modèle de base et le modèle préchauffé sont tous deux entraînés par RLVR sur le même petit ensemble de données (≤100 exemples), le modèle préchauffé surpasse systématiquement le modèle de base ; (iii) le préchauffage avant l'entraînement RLVR permet au modèle de maintenir une généralisabilité inter-domaines même après un entraînement sur un domaine spécifique ; (iv) l'introduction du préchauffage dans le pipeline améliore non seulement la précision, mais aussi l'efficacité globale en termes d'échantillons pendant l'entraînement RLVR. Les résultats de cette étude mettent en lumière le potentiel du préchauffage pour construire des LLM robustes capables de raisonnement dans des environnements pauvres en données.
English
Designing effective reasoning-capable LLMs typically requires training using
Reinforcement Learning with Verifiable Rewards (RLVR) or distillation with
carefully curated Long Chain of Thoughts (CoT), both of which depend heavily on
extensive training data. This creates a major challenge when the amount of
quality training data is scarce. We propose a sample-efficient, two-stage
training strategy to develop reasoning LLMs under limited supervision. In the
first stage, we "warm up" the model by distilling Long CoTs from a toy domain,
namely, Knights \& Knaves (K\&K) logic puzzles to acquire general reasoning
skills. In the second stage, we apply RLVR to the warmed-up model using a
limited set of target-domain examples. Our experiments demonstrate that this
two-phase approach offers several benefits: (i) the warmup phase alone
facilitates generalized reasoning, leading to performance improvements across a
range of tasks, including MATH, HumanEval^{+}, and MMLU-Pro. (ii) When both
the base model and the warmed-up model are RLVR trained on the same small
dataset (leq100 examples), the warmed-up model consistently outperforms the
base model; (iii) Warming up before RLVR training allows a model to maintain
cross-domain generalizability even after training on a specific domain; (iv)
Introducing warmup in the pipeline improves not only accuracy but also overall
sample efficiency during RLVR training. The results in this paper highlight the
promise of warmup for building robust reasoning LLMs in data-scarce
environments.Summary
AI-Generated Summary