O Treinamento Intermediário com Dados Autogerados Melhora o Aprendizado por Reforço em Modelos de Linguagem

Resumo

A eficácia do Aprendizado por Reforço (RL) em Grandes Modelos de Linguagem (LLMs) depende da natureza e da diversidade dos dados utilizados antes e durante o RL. Em particular, problemas de raciocínio podem frequentemente ser abordados de múltiplas maneiras que dependem de diferentes formas de raciocínio, e a exposição a apenas um conjunto limitado dessas abordagens nos dados de treinamento pode restringir a eficácia do RL. Motivados por isso, investigamos o uso de dados autogerados diversos durante o treinamento intermediário como uma etapa intermediária antes do treinamento com RL. Especificamente, adotamos um framework de geração de dados bootstrapada guiado pelas abordagens de resolução de problemas de George Pólya para gerar múltiplas variantes de respostas corretas para cada pergunta nos dados de treinamento e, em seguida, realizamos o ajuste fino. Primeiramente, oferecemos uma perspectiva teórica sobre como o treinamento intermediário com tais dados melhora o RL e explicamos como as atualizações de gradiente de política podem incentivar a combinação de múltiplas abordagens. Em seguida, demonstramos empiricamente que modelos treinados com RL, quando inicializados com nossos dados de treinamento intermediário, alcançam melhorias consistentes em diversos benchmarks de raciocínio matemático e em outras tarefas OOD, como geração de código e raciocínio narrativo. De modo geral, nosso estudo investigativo mostra que um modelo de linguagem que aprende múltiplas abordagens de resolução de problemas, por meio de dados autogerados, auxilia o RL subsequente.

English

The effectiveness of Reinforcement Learning (RL) in Large Language Models (LLMs) depends on the nature and diversity of the data used before and during RL. In particular, reasoning problems can often be approached in multiple ways that rely on different forms of reasoning, and exposure to only a limited range of such approaches in the training data may limit the effectiveness of RL. Motivated by this, we investigate using diverse self-generated data during mid-training as an intermediate step before RL training. Specifically, we adopt a bootstrapped data-generation framework guided by George Polya's problem-solving approaches for generating multiple variants of correct answers for each question in the training data, and then perform fine-tuning. We first provide a theoretical perspective on how mid-training on such data improves RL and explain how policy-gradient updates can incentivize combining multiple approaches. We then empirically demonstrate that RL-trained models initialized with our mid-training data achieve consistent improvements across various mathematical reasoning benchmarks and other OOD tasks like code generation and narrative reasoning. Overall, our investigative study shows that a language model learning multiple problem-solving approaches, through self-generated data helps subsequent RL.