Taalspel voor gegevensvrije training
Language Self-Play For Data-Free Training
September 9, 2025
Auteurs: Jakub Grudzien Kuba, Mengting Gu, Qi Ma, Yuandong Tian, Vijai Mohan
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben de afgelopen jaren een snelle vooruitgang geboekt, aangedreven door schaal, overvloedige hoogwaardige trainingsdata en reinforcement learning. Toch stuit deze vooruitgang op een fundamenteel knelpunt: de behoefte aan steeds meer data waaruit modellen kunnen blijven leren. In dit werk stellen we een reinforcement learning-benadering voor die deze afhankelijkheid opheft door modellen in staat te stellen zich te verbeteren zonder aanvullende data. Onze methode maakt gebruik van een speltheoretisch raamwerk van zelfspel, waarbij de capaciteiten van een model worden gezien als prestaties in een competitief spel en sterkere strategieën ontstaan door het model tegen zichzelf te laten spelen - een proces dat we Language Self-Play (LSP) noemen. Experimenten met Llama-3.2-3B-Instruct op benchmarks voor instructievolging laten zien dat voorgetrainde modellen niet alleen hun prestaties op uitdagende taken kunnen verbeteren door middel van zelfspel alleen, maar dit ook effectiever kunnen doen dan data-gedreven basislijnen.
English
Large language models (LLMs) have advanced rapidly in recent years, driven by
scale, abundant high-quality training data, and reinforcement learning. Yet
this progress faces a fundamental bottleneck: the need for ever more data from
which models can continue to learn. In this work, we propose a reinforcement
learning approach that removes this dependency by enabling models to improve
without additional data. Our method leverages a game-theoretic framework of
self-play, where a model's capabilities are cast as performance in a
competitive game and stronger policies emerge by having the model play against
itself - a process we call Language Self-Play (LSP). Experiments with
Llama-3.2-3B-Instruct on instruction-following benchmarks show that pretrained
models can not only enhance their performance on challenging tasks through
self-play alone, but can also do so more effectively than data-driven
baselines.