ChatPaper.aiChatPaper

Разогрев перед обучением: раскрытие потенциала общего мышления в условиях ограниченных ресурсов

Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings

May 19, 2025
Авторы: Safal Shrestha, Minwu Kim, Aadim Nepal, Anubhav Shrestha, Keith Ross
cs.AI

Аннотация

Разработка эффективных языковых моделей (LLM) с развитыми способностями к рассуждению обычно требует обучения с использованием обучения с подкреплением с верифицируемыми наградами (RLVR) или дистилляции с тщательно отобранными длинными цепочками рассуждений (CoT), что в значительной степени зависит от обширных обучающих данных. Это создает серьезную проблему, когда объем качественных обучающих данных ограничен. Мы предлагаем эффективную по выборкам двухэтапную стратегию обучения для разработки LLM с развитыми способностями к рассуждению при ограниченном надзоре. На первом этапе мы "разогреваем" модель, дистиллируя длинные CoT из игрушечной области, а именно логических головоломок "Рыцари и Лжецы" (K&K), чтобы приобрести общие навыки рассуждения. На втором этапе мы применяем RLVR к разогретой модели, используя ограниченный набор примеров из целевой области. Наши эксперименты демонстрируют, что этот двухфазный подход предлагает несколько преимуществ: (i) только этап разогрева способствует обобщенному рассуждению, что приводит к улучшению производительности в широком спектре задач, включая MATH, HumanEval⁺ и MMLU-Pro; (ii) когда как базовая модель, так и разогретая модель обучаются RLVR на одном и том же небольшом наборе данных (≤100 примеров), разогретая модель стабильно превосходит базовую; (iii) разогрев перед обучением RLVR позволяет модели сохранять кросс-доменную обобщаемость даже после обучения на конкретной области; (iv) введение этапа разогрева в процесс обучения не только повышает точность, но и общую эффективность использования выборок во время обучения RLVR. Результаты, представленные в этой статье, подчеркивают перспективность использования разогрева для создания устойчивых LLM с развитыми способностями к рассуждению в условиях ограниченных данных.
English
Designing effective reasoning-capable LLMs typically requires training using Reinforcement Learning with Verifiable Rewards (RLVR) or distillation with carefully curated Long Chain of Thoughts (CoT), both of which depend heavily on extensive training data. This creates a major challenge when the amount of quality training data is scarce. We propose a sample-efficient, two-stage training strategy to develop reasoning LLMs under limited supervision. In the first stage, we "warm up" the model by distilling Long CoTs from a toy domain, namely, Knights \& Knaves (K\&K) logic puzzles to acquire general reasoning skills. In the second stage, we apply RLVR to the warmed-up model using a limited set of target-domain examples. Our experiments demonstrate that this two-phase approach offers several benefits: (i) the warmup phase alone facilitates generalized reasoning, leading to performance improvements across a range of tasks, including MATH, HumanEval^{+}, and MMLU-Pro. (ii) When both the base model and the warmed-up model are RLVR trained on the same small dataset (leq100 examples), the warmed-up model consistently outperforms the base model; (iii) Warming up before RLVR training allows a model to maintain cross-domain generalizability even after training on a specific domain; (iv) Introducing warmup in the pipeline improves not only accuracy but also overall sample efficiency during RLVR training. The results in this paper highlight the promise of warmup for building robust reasoning LLMs in data-scarce environments.

Summary

AI-Generated Summary

PDF51May 21, 2025