ChatPaper.aiChatPaper

Auto-apprentissage linguistique pour l'entraînement sans données

Language Self-Play For Data-Free Training

September 9, 2025
papers.authors: Jakub Grudzien Kuba, Mengting Gu, Qi Ma, Yuandong Tian, Vijai Mohan
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) ont progressé rapidement ces dernières années, grâce à l'augmentation de leur échelle, à l'abondance de données d'entraînement de haute qualité et à l'apprentissage par renforcement. Cependant, cette avancée se heurte à un goulot d'étranglement fondamental : le besoin croissant de données supplémentaires pour que les modèles puissent continuer à apprendre. Dans ce travail, nous proposons une approche d'apprentissage par renforcement qui élimine cette dépendance en permettant aux modèles de s'améliorer sans données supplémentaires. Notre méthode s'appuie sur un cadre théorique de jeu basé sur l'auto-confrontation, où les capacités d'un modèle sont évaluées en fonction de ses performances dans un jeu compétitif, et où des stratégies plus robustes émergent en faisant jouer le modèle contre lui-même - un processus que nous appelons Auto-Jeu Linguistique (LSP). Les expériences menées avec Llama-3.2-3B-Instruct sur des benchmarks de suivi d'instructions montrent que les modèles pré-entraînés peuvent non seulement améliorer leurs performances sur des tâches complexes grâce à l'auto-jeu seul, mais qu'ils peuvent le faire plus efficacement que les approches basées sur des données supplémentaires.
English
Large language models (LLMs) have advanced rapidly in recent years, driven by scale, abundant high-quality training data, and reinforcement learning. Yet this progress faces a fundamental bottleneck: the need for ever more data from which models can continue to learn. In this work, we propose a reinforcement learning approach that removes this dependency by enabling models to improve without additional data. Our method leverages a game-theoretic framework of self-play, where a model's capabilities are cast as performance in a competitive game and stronger policies emerge by having the model play against itself - a process we call Language Self-Play (LSP). Experiments with Llama-3.2-3B-Instruct on instruction-following benchmarks show that pretrained models can not only enhance their performance on challenging tasks through self-play alone, but can also do so more effectively than data-driven baselines.
PDF213September 10, 2025