Cero Absoluto: Razonamiento con Autoaprendizaje Reforzado sin DatosAbsolute Zero: Reinforced Self-play Reasoning with Zero Data
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha demostrado ser prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes al aprender directamente a partir de recompensas basadas en resultados. Trabajos recientes de RLVR que operan en el entorno de cero evitan la supervisión en la etiquetación del proceso de razonamiento, pero aún dependen de colecciones manualmente curadas de preguntas y respuestas para el entrenamiento. La escasez de ejemplos de alta calidad producidos por humanos plantea preocupaciones sobre la escalabilidad a largo plazo de depender de la supervisión humana, un desafío ya evidente en el dominio del preentrenamiento de modelos de lenguaje. Además, en un futuro hipotético donde la inteligencia artificial supere a la humana, las tareas proporcionadas por humanos podrían ofrecer un potencial de aprendizaje limitado para un sistema superinteligente. Para abordar estas preocupaciones, proponemos un nuevo paradigma de RLVR llamado Absolute Zero, en el cual un único modelo aprende a proponer tareas que maximizan su propio progreso de aprendizaje y mejora el razonamiento al resolverlas, sin depender de ningún dato externo. Bajo este paradigma, presentamos el Absolute Zero Reasoner (AZR), un sistema que auto-evoluciona su currículo de entrenamiento y capacidad de razonamiento utilizando un ejecutor de código para validar tareas de razonamiento de código propuestas y verificar respuestas, sirviendo como una fuente unificada de recompensa verificable para guiar un aprendizaje abierto pero fundamentado. A pesar de ser entrenado completamente sin datos externos, AZR logra un rendimiento general de última generación (SOTA) en tareas de razonamiento matemático y de codificación, superando a los modelos existentes en el entorno de cero que dependen de decenas de miles de ejemplos humanos curados en el dominio. Además, demostramos que AZR puede aplicarse eficazmente en diferentes escalas de modelos y es compatible con diversas clases de modelos.