ChatPaper.aiChatPaper

GoLongRL: Vermogensgericht Lange Context Versterkend Leren met Multitaak Afstemming

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

May 19, 2026
Auteurs: Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li
cs.AI

Samenvatting

Wij presenteren GoLongRL, een volledig open source, op capaciteiten gericht post-training recept voor long-context reinforcement learning met verifieerbare beloningen (RLVR). Bestaande long-context RL-methoden beschouwen dataconstructie vaak als een kwestie van het ontwerpen van steeds complexere retrievalpaden, wat leidt tot homogene taakdekking en beloningsformuleringen die praktische long-context vereisten onvoldoende weerspiegelen. Ons werk levert twee bijdragen. (1) Op capaciteiten gerichte dataconstructie met volledige open source vrijgave. We geven openlijk een dataset vrij van 23K RLVR-voorbeelden, de complete constructiepijplijn en alle trainingscode. Geleid door een taxonomie van long-context capaciteiten, beslaat de dataset 9 taaktypen, elk gekoppeld aan zijn natuurlijke evaluatiemetriek. Het bevat samengestelde open source voorbeelden uit gevestigde corpora en synthetische voorbeelden waarvan de QA-paren zijn gegenereerd uit echte brondocumenten zoals boeken, academische papers en multi-turn dialogen. Onder dezelfde vanilla GRPO-opstelling overtreft onze dataset alleen al de closed-source QwenLong-L1.5 dataset. Bovendien levert ons Qwen3-30B-A3B model, getraind op deze data, long-context prestaties die vergelijkbaar zijn met DeepSeek-R1-0528 en Qwen3-235B-A22B-Thinking-2507, wat suggereert dat bredere dekking en grotere beloningsdiversiteit aanzienlijk bijdragen aan de verbetering van long-context capaciteiten. (2) TMN-Reweight voor heterogene multi-task optimalisatie. Om optimalisatie-uitdagingen door heterogene beloningen aan te pakken, stellen we TMN-Reweight voor, dat taakniveau gemiddelde normalisatie voor cross-task beloningsschaalafstemming combineert met moeilijkheidsadaptieve weging voor betrouwbaardere voordeelschatting. TMN-Reweight verbetert verder de gemiddelde prestaties ten opzichte van vanilla GRPO, waarbij algemene capaciteiten behouden of verbeterd worden in de gerapporteerde evaluaties.
English
We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.