Aqueça Antes de Treinar: Desbloqueando o Raciocínio Geral em Configurações com Recursos Limitados
Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings
May 19, 2025
Autores: Safal Shrestha, Minwu Kim, Aadim Nepal, Anubhav Shrestha, Keith Ross
cs.AI
Resumo
Projetar LLMs (Large Language Models) eficazes com capacidade de raciocínio geralmente requer treinamento utilizando Aprendizado por Reforço com Recompensas Verificáveis (RLVR) ou destilação com Cadeias Longas de Pensamento (CoT) cuidadosamente curadas, ambas as quais dependem fortemente de grandes quantidades de dados de treinamento. Isso cria um grande desafio quando a quantidade de dados de treinamento de qualidade é escassa. Propomos uma estratégia de treinamento em duas etapas, eficiente em termos de amostras, para desenvolver LLMs de raciocínio sob supervisão limitada. Na primeira etapa, "aquecermos" o modelo destilando Long CoTs de um domínio de brinquedo, especificamente, quebra-cabeças lógicos de Cavaleiros e Vigaristas (K&K), para adquirir habilidades gerais de raciocínio. Na segunda etapa, aplicamos RLVR ao modelo aquecido usando um conjunto limitado de exemplos do domínio alvo. Nossos experimentos demonstram que essa abordagem em duas fases oferece vários benefícios: (i) a fase de aquecimento por si só facilita o raciocínio generalizado, levando a melhorias de desempenho em uma variedade de tarefas, incluindo MATH, HumanEval⁺ e MMLU-Pro; (ii) Quando tanto o modelo base quanto o modelo aquecido são treinados com RLVR no mesmo pequeno conjunto de dados (≤100 exemplos), o modelo aquecido consistentemente supera o modelo base; (iii) Aquecer o modelo antes do treinamento com RLVR permite que ele mantenha a generalizabilidade entre domínios mesmo após o treinamento em um domínio específico; (iv) Introduzir o aquecimento no pipeline melhora não apenas a precisão, mas também a eficiência geral de amostras durante o treinamento com RLVR. Os resultados deste artigo destacam o potencial do aquecimento para construir LLMs de raciocínio robustos em ambientes com escassez de dados.
English
Designing effective reasoning-capable LLMs typically requires training using
Reinforcement Learning with Verifiable Rewards (RLVR) or distillation with
carefully curated Long Chain of Thoughts (CoT), both of which depend heavily on
extensive training data. This creates a major challenge when the amount of
quality training data is scarce. We propose a sample-efficient, two-stage
training strategy to develop reasoning LLMs under limited supervision. In the
first stage, we "warm up" the model by distilling Long CoTs from a toy domain,
namely, Knights \& Knaves (K\&K) logic puzzles to acquire general reasoning
skills. In the second stage, we apply RLVR to the warmed-up model using a
limited set of target-domain examples. Our experiments demonstrate that this
two-phase approach offers several benefits: (i) the warmup phase alone
facilitates generalized reasoning, leading to performance improvements across a
range of tasks, including MATH, HumanEval^{+}, and MMLU-Pro. (ii) When both
the base model and the warmed-up model are RLVR trained on the same small
dataset (leq100 examples), the warmed-up model consistently outperforms the
base model; (iii) Warming up before RLVR training allows a model to maintain
cross-domain generalizability even after training on a specific domain; (iv)
Introducing warmup in the pipeline improves not only accuracy but also overall
sample efficiency during RLVR training. The results in this paper highlight the
promise of warmup for building robust reasoning LLMs in data-scarce
environments.