Calienta antes de entrenar: Desbloqueando el razonamiento general en entornos con recursos limitados
Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings
May 19, 2025
Autores: Safal Shrestha, Minwu Kim, Aadim Nepal, Anubhav Shrestha, Keith Ross
cs.AI
Resumen
Diseñar modelos de lenguaje con capacidades de razonamiento efectivos (LLMs) generalmente requiere entrenamiento utilizando Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) o destilación con Cadenas Largas de Pensamiento (CoT) cuidadosamente curadas, ambos enfoques dependen en gran medida de grandes cantidades de datos de entrenamiento. Esto representa un desafío importante cuando la cantidad de datos de entrenamiento de calidad es escasa. Proponemos una estrategia de entrenamiento en dos etapas eficiente en muestras para desarrollar LLMs con razonamiento bajo supervisión limitada. En la primera etapa, "precalentamos" el modelo destilando CoTs largas de un dominio de juguete, específicamente, los acertijos lógicos de Caballeros y Escuderos (K&K), para adquirir habilidades generales de razonamiento. En la segunda etapa, aplicamos RLVR al modelo precalentado utilizando un conjunto limitado de ejemplos del dominio objetivo. Nuestros experimentos demuestran que este enfoque de dos fases ofrece varios beneficios: (i) la fase de precalentamiento por sí sola facilita el razonamiento generalizado, lo que conduce a mejoras en el rendimiento en una variedad de tareas, incluyendo MATH, HumanEval⁺ y MMLU-Pro; (ii) cuando tanto el modelo base como el modelo precalentado son entrenados con RLVR en el mismo conjunto pequeño de datos (≤100 ejemplos), el modelo precalentado supera consistentemente al modelo base; (iii) el precalentamiento antes del entrenamiento con RLVR permite que un modelo mantenga la generalización cruzada incluso después de entrenar en un dominio específico; (iv) la introducción del precalentamiento en el proceso no solo mejora la precisión, sino también la eficiencia general en el uso de muestras durante el entrenamiento con RLVR. Los resultados de este artículo destacan el potencial del precalentamiento para construir LLMs robustos con capacidades de razonamiento en entornos con escasez de datos.
English
Designing effective reasoning-capable LLMs typically requires training using
Reinforcement Learning with Verifiable Rewards (RLVR) or distillation with
carefully curated Long Chain of Thoughts (CoT), both of which depend heavily on
extensive training data. This creates a major challenge when the amount of
quality training data is scarce. We propose a sample-efficient, two-stage
training strategy to develop reasoning LLMs under limited supervision. In the
first stage, we "warm up" the model by distilling Long CoTs from a toy domain,
namely, Knights \& Knaves (K\&K) logic puzzles to acquire general reasoning
skills. In the second stage, we apply RLVR to the warmed-up model using a
limited set of target-domain examples. Our experiments demonstrate that this
two-phase approach offers several benefits: (i) the warmup phase alone
facilitates generalized reasoning, leading to performance improvements across a
range of tasks, including MATH, HumanEval^{+}, and MMLU-Pro. (ii) When both
the base model and the warmed-up model are RLVR trained on the same small
dataset (leq100 examples), the warmed-up model consistently outperforms the
base model; (iii) Warming up before RLVR training allows a model to maintain
cross-domain generalizability even after training on a specific domain; (iv)
Introducing warmup in the pipeline improves not only accuracy but also overall
sample efficiency during RLVR training. The results in this paper highlight the
promise of warmup for building robust reasoning LLMs in data-scarce
environments.Summary
AI-Generated Summary