Entrenamiento intermedio con datos autogenerados mejora el aprendizaje por refuerzo en modelos de lenguaje

Resumen

La efectividad del Aprendizaje por Refuerzo (RL) en los Modelos de Lenguaje de Gran Escala (LLMs) depende de la naturaleza y diversidad de los datos utilizados antes y durante el RL. En particular, los problemas de razonamiento a menudo pueden abordarse de múltiples maneras que dependen de diferentes formas de razonamiento, y la exposición únicamente a un rango limitado de dichos enfoques en los datos de entrenamiento puede limitar la efectividad del RL. Motivados por esto, investigamos el uso de diversos datos autogenerados durante el entrenamiento intermedio como paso previo al entrenamiento con RL. Específicamente, adoptamos un marco de generación de datos bootstrap guiado por los enfoques de resolución de problemas de George Polya para generar múltiples variantes de respuestas correctas para cada pregunta en los datos de entrenamiento, y luego realizamos un ajuste fino. Primero presentamos una perspectiva teórica sobre cómo el entrenamiento intermedio con estos datos mejora el RL y explicamos cómo las actualizaciones de gradiente de política pueden incentivar la combinación de múltiples enfoques. Posteriormente, demostramos empíricamente que los modelos entrenados con RL e inicializados con nuestros datos de entrenamiento intermedio logran mejoras consistentes en diversos puntos de referencia de razonamiento matemático y otras tareas fuera de distribución (OOD), como la generación de código y el razonamiento narrativo. En general, nuestro estudio de investigación muestra que un modelo de lenguaje que aprende múltiples enfoques de resolución de problemas, a través de datos autogenerados, favorece el RL posterior.

English

The effectiveness of Reinforcement Learning (RL) in Large Language Models (LLMs) depends on the nature and diversity of the data used before and during RL. In particular, reasoning problems can often be approached in multiple ways that rely on different forms of reasoning, and exposure to only a limited range of such approaches in the training data may limit the effectiveness of RL. Motivated by this, we investigate using diverse self-generated data during mid-training as an intermediate step before RL training. Specifically, we adopt a bootstrapped data-generation framework guided by George Polya's problem-solving approaches for generating multiple variants of correct answers for each question in the training data, and then perform fine-tuning. We first provide a theoretical perspective on how mid-training on such data improves RL and explain how policy-gradient updates can incentivize combining multiple approaches. We then empirically demonstrate that RL-trained models initialized with our mid-training data achieve consistent improvements across various mathematical reasoning benchmarks and other OOD tasks like code generation and narrative reasoning. Overall, our investigative study shows that a language model learning multiple problem-solving approaches, through self-generated data helps subsequent RL.