Autojogo de Linguagem para Treinamento sem Dados
Language Self-Play For Data-Free Training
September 9, 2025
Autores: Jakub Grudzien Kuba, Mengting Gu, Qi Ma, Yuandong Tian, Vijai Mohan
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) avançaram rapidamente nos últimos anos, impulsionados pela escala, abundância de dados de treinamento de alta qualidade e aprendizado por reforço. No entanto, esse progresso enfrenta um gargalo fundamental: a necessidade de cada vez mais dados a partir dos quais os modelos possam continuar a aprender. Neste trabalho, propomos uma abordagem de aprendizado por reforço que elimina essa dependência, permitindo que os modelos melhorem sem dados adicionais. Nosso método utiliza uma estrutura teórica dos jogos de autojogo, onde as capacidades de um modelo são medidas pelo desempenho em um jogo competitivo, e políticas mais fortes emergem ao fazer o modelo jogar contra si mesmo — um processo que chamamos de Autojogo de Linguagem (LSP). Experimentos com o Llama-3.2-3B-Instruct em benchmarks de seguimento de instruções mostram que modelos pré-treinados não apenas podem aprimorar seu desempenho em tarefas desafiadoras apenas com o autojogo, mas também podem fazê-lo de forma mais eficaz do que abordagens baseadas em dados.
English
Large language models (LLMs) have advanced rapidly in recent years, driven by
scale, abundant high-quality training data, and reinforcement learning. Yet
this progress faces a fundamental bottleneck: the need for ever more data from
which models can continue to learn. In this work, we propose a reinforcement
learning approach that removes this dependency by enabling models to improve
without additional data. Our method leverages a game-theoretic framework of
self-play, where a model's capabilities are cast as performance in a
competitive game and stronger policies emerge by having the model play against
itself - a process we call Language Self-Play (LSP). Experiments with
Llama-3.2-3B-Instruct on instruction-following benchmarks show that pretrained
models can not only enhance their performance on challenging tasks through
self-play alone, but can also do so more effectively than data-driven
baselines.