Autojuego Lingüístico para Entrenamiento sin Datos
Language Self-Play For Data-Free Training
September 9, 2025
Autores: Jakub Grudzien Kuba, Mengting Gu, Qi Ma, Yuandong Tian, Vijai Mohan
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado rápidamente en los últimos años, impulsados por la escalabilidad, la abundancia de datos de entrenamiento de alta calidad y el aprendizaje por refuerzo. Sin embargo, este progreso enfrenta un cuello de botella fundamental: la necesidad de obtener cada vez más datos a partir de los cuales los modelos puedan seguir aprendiendo. En este trabajo, proponemos un enfoque de aprendizaje por refuerzo que elimina esta dependencia al permitir que los modelos mejoren sin necesidad de datos adicionales. Nuestro método aprovecha un marco teórico de juegos de autocompetencia, donde las capacidades de un modelo se miden en función de su desempeño en un juego competitivo, y políticas más fuertes emergen al hacer que el modelo compita consigo mismo, un proceso que denominamos Autocompetencia de Lenguaje (LSP, por sus siglas en inglés). Los experimentos realizados con Llama-3.2-3B-Instruct en benchmarks de seguimiento de instrucciones muestran que los modelos preentrenados no solo pueden mejorar su rendimiento en tareas desafiantes únicamente mediante la autocompetencia, sino que también lo hacen de manera más efectiva que los enfoques basados en datos.
English
Large language models (LLMs) have advanced rapidly in recent years, driven by
scale, abundant high-quality training data, and reinforcement learning. Yet
this progress faces a fundamental bottleneck: the need for ever more data from
which models can continue to learn. In this work, we propose a reinforcement
learning approach that removes this dependency by enabling models to improve
without additional data. Our method leverages a game-theoretic framework of
self-play, where a model's capabilities are cast as performance in a
competitive game and stronger policies emerge by having the model play against
itself - a process we call Language Self-Play (LSP). Experiments with
Llama-3.2-3B-Instruct on instruction-following benchmarks show that pretrained
models can not only enhance their performance on challenging tasks through
self-play alone, but can also do so more effectively than data-driven
baselines.