GoLongRL: Vermogensgericht Lange Context Versterkend Leren met Multitaak Afstemming

Samenvatting

Wij presenteren GoLongRL, een volledig open source, op capaciteiten gericht post-training recept voor long-context reinforcement learning met verifieerbare beloningen (RLVR). Bestaande long-context RL-methoden beschouwen dataconstructie vaak als een kwestie van het ontwerpen van steeds complexere retrievalpaden, wat leidt tot homogene taakdekking en beloningsformuleringen die praktische long-context vereisten onvoldoende weerspiegelen. Ons werk levert twee bijdragen. (1) Op capaciteiten gerichte dataconstructie met volledige open source vrijgave. We geven openlijk een dataset vrij van 23K RLVR-voorbeelden, de complete constructiepijplijn en alle trainingscode. Geleid door een taxonomie van long-context capaciteiten, beslaat de dataset 9 taaktypen, elk gekoppeld aan zijn natuurlijke evaluatiemetriek. Het bevat samengestelde open source voorbeelden uit gevestigde corpora en synthetische voorbeelden waarvan de QA-paren zijn gegenereerd uit echte brondocumenten zoals boeken, academische papers en multi-turn dialogen. Onder dezelfde vanilla GRPO-opstelling overtreft onze dataset alleen al de closed-source QwenLong-L1.5 dataset. Bovendien levert ons Qwen3-30B-A3B model, getraind op deze data, long-context prestaties die vergelijkbaar zijn met DeepSeek-R1-0528 en Qwen3-235B-A22B-Thinking-2507, wat suggereert dat bredere dekking en grotere beloningsdiversiteit aanzienlijk bijdragen aan de verbetering van long-context capaciteiten. (2) TMN-Reweight voor heterogene multi-task optimalisatie. Om optimalisatie-uitdagingen door heterogene beloningen aan te pakken, stellen we TMN-Reweight voor, dat taakniveau gemiddelde normalisatie voor cross-task beloningsschaalafstemming combineert met moeilijkheidsadaptieve weging voor betrouwbaardere voordeelschatting. TMN-Reweight verbetert verder de gemiddelde prestaties ten opzichte van vanilla GRPO, waarbij algemene capaciteiten behouden of verbeterd worden in de gerapporteerde evaluaties.

English

We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.