L'entraînement intermédiaire avec des données auto-générées améliore l'apprentissage par renforcement dans les modèles de langage.

Résumé

L'efficacité de l'Apprentissage par Renforcement (AR) dans les Grands Modèles de Langage (GML) dépend de la nature et de la diversité des données utilisées avant et pendant l'AR. En particulier, les problèmes de raisonnement peuvent souvent être abordés de multiples manières reposant sur différentes formes de raisonnement, et une exposition à un éventail trop restreint de ces approches dans les données d'entraînement peut limiter l'efficacité de l'AR. Motivés par ce constat, nous étudions l'utilisation de données auto-générées diversifiées lors d'un entraînement intermédiaire, en tant qu'étape préalable à l'entraînement par AR. Plus précisément, nous adoptons un cadre de génération de données bootstrap guidé par les approches de résolution de problèmes de George Pólya, afin de produire plusieurs variantes de réponses correctes pour chaque question dans les données d'entraînement, puis nous effectuons un fine-tuning. Nous présentons d'abord une perspective théorique sur la manière dont l'entraînement intermédiaire sur de telles données améliore l'AR, et expliquons comment les mises à jour par gradient de politique peuvent inciter à combiner plusieurs approches. Nous démontrons ensuite empiriquement que les modèles entraînés par AR, initialisés avec nos données d'entraînement intermédiaire, obtiennent des améliorations cohérentes sur divers critères de raisonnement mathématique ainsi que sur d'autres tâches hors distribution (OOD), telles que la génération de code et le raisonnement narratif. Dans l'ensemble, notre étude exploratoire montre que l'apprentissage de multiples approches de résolution de problèmes par un modèle de langage, via des données auto-générées, favorise l'AR ultérieur.

English

The effectiveness of Reinforcement Learning (RL) in Large Language Models (LLMs) depends on the nature and diversity of the data used before and during RL. In particular, reasoning problems can often be approached in multiple ways that rely on different forms of reasoning, and exposure to only a limited range of such approaches in the training data may limit the effectiveness of RL. Motivated by this, we investigate using diverse self-generated data during mid-training as an intermediate step before RL training. Specifically, we adopt a bootstrapped data-generation framework guided by George Polya's problem-solving approaches for generating multiple variants of correct answers for each question in the training data, and then perform fine-tuning. We first provide a theoretical perspective on how mid-training on such data improves RL and explain how policy-gradient updates can incentivize combining multiple approaches. We then empirically demonstrate that RL-trained models initialized with our mid-training data achieve consistent improvements across various mathematical reasoning benchmarks and other OOD tasks like code generation and narrative reasoning. Overall, our investigative study shows that a language model learning multiple problem-solving approaches, through self-generated data helps subsequent RL.