Composition-RL: Verifizierbare Prompts für das Reinforcement Learning großer Sprachmodelle zusammenstellen

papers.abstract

Großmaßstäblich verifizierbare Prompts bilden die Grundlage für den Erfolg von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), doch sie enthalten viele nicht-informative Beispiele und sind kostspielig weiter auszubauen. Jüngste Studien konzentrieren sich darauf, begrenzte Trainingsdaten besser auszunutzen, indem sie schwierige Prompts priorisieren, deren Rollout-Erfolgsquote bei 0 liegt. Allerdings werden einfache Prompts mit einer Erfolgsquote von 1 im Trainingsverlauf ebenfalls zunehmend häufiger, was die effektive Datengröße verringert. Um dies abzumildern, schlagen wir Composition-RL vor, einen einfachen, aber nützlichen Ansatz zur besseren Nutzung begrenzter verifizierbarer Prompts, die auf Prompts mit Erfolgsquote 1 abzielen. Konkret komponiert Composition-RL automatisch mehrere Probleme zu einer neuen verifizierbaren Frage und nutzt diese kompositionellen Prompts für das RL-Training. Umfangreiche Experimente über Modellgrößen von 4B bis 30B zeigen, dass Composition-RL die Reasoning-Fähigkeit im Vergleich zu RL, das auf dem ursprünglichen Datensatz trainiert wurde, konsistent verbessert. Die Leistung kann weiter gesteigert werden durch eine Curriculum-Variante von Composition-RL, die die kompositionelle Tiefe während des Trainings schrittweise erhöht. Zusätzlich ermöglicht Composition-RL ein effektiveres domänenübergreifendes RL, indem Prompts aus verschiedenen Domänen kombiniert werden. Codes, Datensätze und Modelle sind verfügbar unter https://github.com/XinXU-USTC/Composition-RL.

English

Large-scale verifiable prompts underpin the success of Reinforcement Learning with Verifiable Rewards (RLVR), but they contain many uninformative examples and are costly to expand further. Recent studies focus on better exploiting limited training data by prioritizing hard prompts whose rollout pass rate is 0. However, easy prompts with a pass rate of 1 also become increasingly prevalent as training progresses, thereby reducing the effective data size. To mitigate this, we propose Composition-RL, a simple yet useful approach for better utilizing limited verifiable prompts targeting pass-rate-1 prompts. More specifically, Composition-RL automatically composes multiple problems into a new verifiable question and uses these compositional prompts for RL training. Extensive experiments across model sizes from 4B to 30B show that Composition-RL consistently improves reasoning capability over RL trained on the original dataset. Performance can be further boosted with a curriculum variant of Composition-RL that gradually increases compositional depth over training. Additionally, Composition-RL enables more effective cross-domain RL by composing prompts drawn from different domains. Codes, datasets, and models are available at https://github.com/XinXU-USTC/Composition-RL.

Composition-RL: Verifizierbare Prompts für das Reinforcement Learning großer Sprachmodelle zusammenstellen

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

papers.abstract

Support