Tussentijdse training met zelf gegenereerde data verbetert reinforcement learning in taalmodellen

Samenvatting

De effectiviteit van Reinforcement Learning (RL) in grote taalmodellen (Large Language Models, LLMs) hangt af van de aard en diversiteit van de gegevens die voor en tijdens RL worden gebruikt. In het bijzonder kunnen redeneerproblemen vaak op meerdere manieren worden benaderd, die berusten op verschillende vormen van redeneren, en blootstelling aan slechts een beperkt aantal van dergelijke benaderingen in de trainingsgegevens kan de effectiviteit van RL beperken. Gemotiveerd door dit onderzoeken we het gebruik van diverse zelf-gegenereerde gegevens tijdens mid-training als een tussenstap vóór RL-training. Specifiek hanteren we een bootstrapped datageneratiekader, geleid door de probleemoplossingsbenaderingen van George Polya, om meerdere varianten van correcte antwoorden voor elke vraag in de trainingsgegevens te genereren, en voeren we vervolgens fine-tuning uit. We geven eerst een theoretisch perspectief op hoe mid-training op dergelijke gegevens RL verbetert en leggen uit hoe policy-gradient-updates het combineren van meerdere benaderingen kunnen stimuleren. Vervolgens tonen we empirisch aan dat met RL getrainde modellen, geïnitialiseerd met onze mid-training gegevens, consistente verbeteringen behalen op diverse wiskundige redeneerbenchmarks en andere OOD-taken zoals codegeneratie en verhalend redeneren. Over het geheel genomen toont onze onderzoeksstudie aan dat een taalmodel dat meerdere probleemoplossingsbenaderingen leert via zelf-gegenereerde gegevens, de daaropvolgende RL bevordert.

English

The effectiveness of Reinforcement Learning (RL) in Large Language Models (LLMs) depends on the nature and diversity of the data used before and during RL. In particular, reasoning problems can often be approached in multiple ways that rely on different forms of reasoning, and exposure to only a limited range of such approaches in the training data may limit the effectiveness of RL. Motivated by this, we investigate using diverse self-generated data during mid-training as an intermediate step before RL training. Specifically, we adopt a bootstrapped data-generation framework guided by George Polya's problem-solving approaches for generating multiple variants of correct answers for each question in the training data, and then perform fine-tuning. We first provide a theoretical perspective on how mid-training on such data improves RL and explain how policy-gradient updates can incentivize combining multiple approaches. We then empirically demonstrate that RL-trained models initialized with our mid-training data achieve consistent improvements across various mathematical reasoning benchmarks and other OOD tasks like code generation and narrative reasoning. Overall, our investigative study shows that a language model learning multiple problem-solving approaches, through self-generated data helps subsequent RL.