ChatPaper.aiChatPaper

Warm Up Voordat Je Traint: Algemene Redeneervaardigheden Ontgrendelen in Omgevingen met Beperkte Middelen

Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings

May 19, 2025
Auteurs: Safal Shrestha, Minwu Kim, Aadim Nepal, Anubhav Shrestha, Keith Ross
cs.AI

Samenvatting

Het ontwerpen van effectieve, redeneercapabele LLM's vereist doorgaans training met behulp van Reinforcement Learning met Verifieerbare Beloningen (RLVR) of distillatie met zorgvuldig samengestelde Lange Ketens van Gedachten (CoT), die beide sterk afhankelijk zijn van uitgebreide trainingsdata. Dit vormt een grote uitdaging wanneer de hoeveelheid kwalitatief hoogstaande trainingsdata schaars is. Wij stellen een sample-efficiënte, tweefasige trainingsstrategie voor om redeneer-LLM's te ontwikkelen onder beperkte begeleiding. In de eerste fase "warmen we" het model op door Lange CoT's te distilleren uit een speelgoeddomein, namelijk Knights \& Knaves (K\&K) logische puzzels, om algemene redeneervaardigheden te verwerven. In de tweede fase passen we RLVR toe op het opgewarmde model met behulp van een beperkte set voorbeelden uit het doeldomein. Onze experimenten tonen aan dat deze tweefasenbenadering verschillende voordelen biedt: (i) de opwarmfase alleen al vergemakkelijkt gegeneraliseerd redeneren, wat leidt tot prestatieverbeteringen op een reeks taken, waaronder MATH, HumanEval^{+}, en MMLU-Pro. (ii) Wanneer zowel het basismodel als het opgewarmde model worden getraind met RLVR op dezelfde kleine dataset (leq100 voorbeelden), presteert het opgewarmde model consistent beter dan het basismodel; (iii) Opwarmen voor RLVR-training stelt een model in staat om cross-domein generaliseerbaarheid te behouden, zelfs na training op een specifiek domein; (iv) Het introduceren van opwarmen in de pijplijn verbetert niet alleen de nauwkeurigheid, maar ook de algehele sample-efficiëntie tijdens RLVR-training. De resultaten in dit artikel benadrukken de belofte van opwarmen voor het bouwen van robuuste redeneer-LLM's in data-schaarse omgevingen.
English
Designing effective reasoning-capable LLMs typically requires training using Reinforcement Learning with Verifiable Rewards (RLVR) or distillation with carefully curated Long Chain of Thoughts (CoT), both of which depend heavily on extensive training data. This creates a major challenge when the amount of quality training data is scarce. We propose a sample-efficient, two-stage training strategy to develop reasoning LLMs under limited supervision. In the first stage, we "warm up" the model by distilling Long CoTs from a toy domain, namely, Knights \& Knaves (K\&K) logic puzzles to acquire general reasoning skills. In the second stage, we apply RLVR to the warmed-up model using a limited set of target-domain examples. Our experiments demonstrate that this two-phase approach offers several benefits: (i) the warmup phase alone facilitates generalized reasoning, leading to performance improvements across a range of tasks, including MATH, HumanEval^{+}, and MMLU-Pro. (ii) When both the base model and the warmed-up model are RLVR trained on the same small dataset (leq100 examples), the warmed-up model consistently outperforms the base model; (iii) Warming up before RLVR training allows a model to maintain cross-domain generalizability even after training on a specific domain; (iv) Introducing warmup in the pipeline improves not only accuracy but also overall sample efficiency during RLVR training. The results in this paper highlight the promise of warmup for building robust reasoning LLMs in data-scarce environments.

Summary

AI-Generated Summary

PDF72May 21, 2025