Composition-RL: Stel Uw Verifieerbare Prompts Samen voor Reinforcement Learning van Grote Taalmodellen

Samenvatting

Grootschalige verifieerbare prompts vormen de basis voor het succes van Reinforcement Learning with Verifiable Rewards (RLVR), maar ze bevatten veel niet-informatieve voorbeelden en zijn kostbaar om verder uit te breiden. Recente studies richten zich op het beter benutten van beperkte trainingsdata door prioriteit te geven aan moeilijke prompts met een slagingspercentage van 0. Echter, eenvoudige prompts met een slagingspercentage van 1 worden naarmate de training vordert ook steeds gebruikelijker, wat de effectieve datagrootte verkleint. Om dit te verhelpen, stellen we Composition-RL voor: een eenvoudige maar nuttige aanpak om beperkte verifieerbare prompts, met name prompts met slagingspercentage 1, beter te benutten. Concreet composeert Composition-RL automatisch meerdere problemen tot een nieuwe verifieerbare vraag en gebruikt deze samengestelde prompts voor RL-training. Uitgebreide experimenten met modelgroottes van 4B tot 30B tonen aan dat Composition-RL consistent de redeneercapaciteit verbetert vergeleken met RL getraind op de originele dataset. De prestaties kunnen verder worden verbeterd met een curriculumvariant van Composition-RL die geleidelijk de compositiediepte tijdens de training verhoogt. Bovendien maakt Composition-RL effectievere cross-domein RL mogelijk door prompts uit verschillende domeinen te combineren. Code, datasets en modellen zijn beschikbaar op https://github.com/XinXU-USTC/Composition-RL.

English

Large-scale verifiable prompts underpin the success of Reinforcement Learning with Verifiable Rewards (RLVR), but they contain many uninformative examples and are costly to expand further. Recent studies focus on better exploiting limited training data by prioritizing hard prompts whose rollout pass rate is 0. However, easy prompts with a pass rate of 1 also become increasingly prevalent as training progresses, thereby reducing the effective data size. To mitigate this, we propose Composition-RL, a simple yet useful approach for better utilizing limited verifiable prompts targeting pass-rate-1 prompts. More specifically, Composition-RL automatically composes multiple problems into a new verifiable question and uses these compositional prompts for RL training. Extensive experiments across model sizes from 4B to 30B show that Composition-RL consistently improves reasoning capability over RL trained on the original dataset. Performance can be further boosted with a curriculum variant of Composition-RL that gradually increases compositional depth over training. Additionally, Composition-RL enables more effective cross-domain RL by composing prompts drawn from different domains. Codes, datasets, and models are available at https://github.com/XinXU-USTC/Composition-RL.

Composition-RL: Stel Uw Verifieerbare Prompts Samen voor Reinforcement Learning van Grote Taalmodellen

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Samenvatting

Support