ChatPaper.aiChatPaper

Sprachliches Selbstspiel für datenfreies Training

Language Self-Play For Data-Free Training

September 9, 2025
papers.authors: Jakub Grudzien Kuba, Mengting Gu, Qi Ma, Yuandong Tian, Vijai Mohan
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben in den letzten Jahren rasante Fortschritte gemacht, angetrieben durch Skalierung, reichlich hochwertige Trainingsdaten und Verstärkungslernen. Doch dieser Fortschritt stößt auf ein grundlegendes Hindernis: die Notwendigkeit immer mehr Daten, aus denen Modelle weiter lernen können. In dieser Arbeit schlagen wir einen Verstärkungslernansatz vor, der diese Abhängigkeit beseitigt, indem er Modelle ermöglicht, sich ohne zusätzliche Daten zu verbessern. Unsere Methode nutzt einen spieltheoretischen Rahmen des Selbstspiels, bei dem die Fähigkeiten eines Modells als Leistung in einem Wettbewerbsspiel dargestellt werden und stärkere Strategien entstehen, indem das Modell gegen sich selbst spielt – ein Prozess, den wir Language Self-Play (LSP) nennen. Experimente mit Llama-3.2-3B-Instruct auf Benchmarks zur Befolgung von Anweisungen zeigen, dass vortrainierte Modelle ihre Leistung bei anspruchsvollen Aufgaben nicht nur durch Selbstspiel allein verbessern können, sondern dies auch effektiver tun als datengetriebene Vergleichsmodelle.
English
Large language models (LLMs) have advanced rapidly in recent years, driven by scale, abundant high-quality training data, and reinforcement learning. Yet this progress faces a fundamental bottleneck: the need for ever more data from which models can continue to learn. In this work, we propose a reinforcement learning approach that removes this dependency by enabling models to improve without additional data. Our method leverages a game-theoretic framework of self-play, where a model's capabilities are cast as performance in a competitive game and stronger policies emerge by having the model play against itself - a process we call Language Self-Play (LSP). Experiments with Llama-3.2-3B-Instruct on instruction-following benchmarks show that pretrained models can not only enhance their performance on challenging tasks through self-play alone, but can also do so more effectively than data-driven baselines.
PDF213September 10, 2025