GoLongRL: Fähigkeitsorientiertes Langkontext-Reinforcement-Learning mit Multitask-Ausrichtung

Zusammenfassung

Wir präsentieren GoLongRL, ein vollständig quelloffenes, fähigkeitsorientiertes Post-Training-Rezept für langkontextuelles Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Bisherige Methoden des langkontextuellen RL betrachten die Datenkonstruktion oft als Frage der Gestaltung zunehmend komplexer Abrufpfade, was zu einer homogenen Aufgabenabdeckung und Belohnungsformulierungen führt, die praktische Anforderungen an lange Kontexte unzureichend widerspiegeln. Unsere Arbeit liefert zwei Beiträge. (1) Fähigkeitsorientierte Datenkonstruktion mit vollständiger offener Veröffentlichung. Wir veröffentlichen offen einen Datensatz mit 23.000 RLVR-Stichproben, die vollständige Konstruktionspipeline und den gesamten Trainingscode. Angeleitet durch eine Taxonomie langkontextueller Fähigkeiten umfasst der Datensatz 9 Aufgabentypen, die jeweils mit ihrer natürlichen Bewertungsmetrik versehen sind. Er besteht aus kuratierten quelloffenen Stichproben etablierter Korpora und synthetischen Stichproben, deren Frage-Antwort-Paare aus realen Quelldokumenten wie Büchern, wissenschaftlichen Arbeiten und mehrfachen Dialogen generiert wurden. Unter demselben einfachen GRPO-Setup übertrifft unser Datensatz allein den quellgeschlossenen QwenLong-L1.5-Datensatz. Darüber hinaus liefert unser auf diesen Daten trainiertes Qwen3-30B-A3B-Modell eine langkontextuelle Leistung, die mit DeepSeek-R1-0528 und Qwen3-235B-A22B-Thinking-2507 vergleichbar ist, was darauf hindeutet, dass eine breitere Abdeckung und größere Belohnungsvielfalt die Verbesserung langkontextueller Fähigkeiten erheblich begünstigen. (2) TMN-Reweight für heterogene Multitask-Optimierung. Um Optimierungsprobleme durch heterogene Belohnungen zu adressieren, schlagen wir TMN-Reweight vor, das eine aufgabenweise Mittelwertnormalisierung zur Skalenangleichung aufgabenübergreifender Belohnungen mit einer schwierigkeitsadaptiven Gewichtung für eine zuverlässigere Vorteilsschätzung kombiniert. TMN-Reweight verbessert die durchschnittliche Leistung gegenüber dem einfachen GRPO weiter, wobei die allgemeinen Fähigkeiten in den berichteten Bewertungen erhalten oder verbessert werden.

English

We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.