ChatPaper.aiChatPaper

Языковое самообучение для обучения без данных

Language Self-Play For Data-Free Training

September 9, 2025
Авторы: Jakub Grudzien Kuba, Mengting Gu, Qi Ma, Yuandong Tian, Vijai Mohan
cs.AI

Аннотация

Крупные языковые модели (LLM) в последние годы стремительно развиваются благодаря масштабированию, обилию высококачественных обучающих данных и обучению с подкреплением. Однако этот прогресс сталкивается с фундаментальным ограничением: необходимостью в постоянно растущем объеме данных, из которых модели могут продолжать обучаться. В данной работе мы предлагаем подход на основе обучения с подкреплением, который устраняет эту зависимость, позволяя моделям улучшаться без дополнительных данных. Наш метод использует игровую теоретическую концепцию самоигры, где способности модели рассматриваются как результат в соревновательной игре, а более сильные стратегии возникают за счет того, что модель играет сама с собой — процесс, который мы называем Языковой Самоигрой (Language Self-Play, LSP). Эксперименты с моделью Llama-3.2-3B-Instruct на бенчмарках выполнения инструкций показывают, что предобученные модели могут не только улучшать свои результаты на сложных задачах исключительно за счет самоигры, но и делать это более эффективно, чем подходы, основанные на данных.
English
Large language models (LLMs) have advanced rapidly in recent years, driven by scale, abundant high-quality training data, and reinforcement learning. Yet this progress faces a fundamental bottleneck: the need for ever more data from which models can continue to learn. In this work, we propose a reinforcement learning approach that removes this dependency by enabling models to improve without additional data. Our method leverages a game-theoretic framework of self-play, where a model's capabilities are cast as performance in a competitive game and stronger policies emerge by having the model play against itself - a process we call Language Self-Play (LSP). Experiments with Llama-3.2-3B-Instruct on instruction-following benchmarks show that pretrained models can not only enhance their performance on challenging tasks through self-play alone, but can also do so more effectively than data-driven baselines.
PDF213September 10, 2025