ChatPaper.aiChatPaper

Autoapprendimento linguistico per addestramento senza dati

Language Self-Play For Data-Free Training

September 9, 2025
Autori: Jakub Grudzien Kuba, Mengting Gu, Qi Ma, Yuandong Tian, Vijai Mohan
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno fatto rapidi progressi negli ultimi anni, grazie alla scala, all'abbondanza di dati di addestramento di alta qualità e all'apprendimento per rinforzo. Tuttavia, questo progresso si scontra con un collo di bottiglia fondamentale: la necessità di sempre più dati da cui i modelli possano continuare a imparare. In questo lavoro, proponiamo un approccio di apprendimento per rinforzo che elimina questa dipendenza, consentendo ai modelli di migliorare senza dati aggiuntivi. Il nostro metodo sfrutta un framework di teoria dei giochi basato sull'auto-gioco, in cui le capacità di un modello sono rappresentate come prestazioni in un gioco competitivo e politiche più forti emergono facendo giocare il modello contro se stesso - un processo che chiamiamo Language Self-Play (LSP). Esperimenti con Llama-3.2-3B-Instruct su benchmark di seguimento delle istruzioni dimostrano che i modelli pre-addestrati non solo possono migliorare le loro prestazioni su compiti complessi solo attraverso l'auto-gioco, ma possono farlo in modo più efficace rispetto ai baseline basati sui dati.
English
Large language models (LLMs) have advanced rapidly in recent years, driven by scale, abundant high-quality training data, and reinforcement learning. Yet this progress faces a fundamental bottleneck: the need for ever more data from which models can continue to learn. In this work, we propose a reinforcement learning approach that removes this dependency by enabling models to improve without additional data. Our method leverages a game-theoretic framework of self-play, where a model's capabilities are cast as performance in a competitive game and stronger policies emerge by having the model play against itself - a process we call Language Self-Play (LSP). Experiments with Llama-3.2-3B-Instruct on instruction-following benchmarks show that pretrained models can not only enhance their performance on challenging tasks through self-play alone, but can also do so more effectively than data-driven baselines.
PDF283September 10, 2025