ChatPaper.aiChatPaper

Riscaldati Prima di Allenarti: Sbloccare il Ragionamento Generale in Contesti con Risorse Limitate

Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings

May 19, 2025
Autori: Safal Shrestha, Minwu Kim, Aadim Nepal, Anubhav Shrestha, Keith Ross
cs.AI

Abstract

Progettare LLM (Large Language Models) capaci di ragionamento efficace richiede tipicamente un addestramento utilizzando il Reinforcement Learning con Ricompense Verificabili (RLVR) o la distillazione con Catene di Pensiero (CoT) accuratamente curate, entrambi i metodi che dipendono fortemente da una vasta quantità di dati di addestramento. Ciò rappresenta una sfida significativa quando la quantità di dati di addestramento di qualità è limitata. Proponiamo una strategia di addestramento in due fasi, efficiente in termini di campioni, per sviluppare LLM con capacità di ragionamento in contesti con supervisione limitata. Nella prima fase, "riscaldiamo" il modello distillando CoT lunghe da un dominio giocattolo, ovvero gli enigmi logici di Cavalieri e Furfanti (K&K), per acquisire abilità di ragionamento generali. Nella seconda fase, applichiamo RLVR al modello riscaldato utilizzando un insieme limitato di esempi del dominio target. I nostri esperimenti dimostrano che questo approccio in due fasi offre diversi vantaggi: (i) la fase di riscaldamento da sola facilita il ragionamento generalizzato, portando a miglioramenti delle prestazioni in una gamma di task, tra cui MATH, HumanEval⁺ e MMLU-Pro; (ii) Quando sia il modello base che il modello riscaldato vengono addestrati con RLVR sullo stesso piccolo dataset (≤100 esempi), il modello riscaldato supera costantemente il modello base; (iii) Il riscaldamento prima dell'addestramento RLVR consente a un modello di mantenere la generalizzabilità cross-dominio anche dopo l'addestramento su un dominio specifico; (iv) L'introduzione del riscaldamento nella pipeline migliora non solo l'accuratezza ma anche l'efficienza complessiva in termini di campioni durante l'addestramento RLVR. I risultati di questo documento evidenziano il potenziale del riscaldamento per costruire LLM robusti con capacità di ragionamento in ambienti con dati scarsi.
English
Designing effective reasoning-capable LLMs typically requires training using Reinforcement Learning with Verifiable Rewards (RLVR) or distillation with carefully curated Long Chain of Thoughts (CoT), both of which depend heavily on extensive training data. This creates a major challenge when the amount of quality training data is scarce. We propose a sample-efficient, two-stage training strategy to develop reasoning LLMs under limited supervision. In the first stage, we "warm up" the model by distilling Long CoTs from a toy domain, namely, Knights \& Knaves (K\&K) logic puzzles to acquire general reasoning skills. In the second stage, we apply RLVR to the warmed-up model using a limited set of target-domain examples. Our experiments demonstrate that this two-phase approach offers several benefits: (i) the warmup phase alone facilitates generalized reasoning, leading to performance improvements across a range of tasks, including MATH, HumanEval^{+}, and MMLU-Pro. (ii) When both the base model and the warmed-up model are RLVR trained on the same small dataset (leq100 examples), the warmed-up model consistently outperforms the base model; (iii) Warming up before RLVR training allows a model to maintain cross-domain generalizability even after training on a specific domain; (iv) Introducing warmup in the pipeline improves not only accuracy but also overall sample efficiency during RLVR training. The results in this paper highlight the promise of warmup for building robust reasoning LLMs in data-scarce environments.
PDF72May 21, 2025