GoLongRL : Apprentissage par Renforcement à Long Contexte Axé sur les Capacités avec Alignement Multi-tâches

Résumé

Nous présentons GoLongRL, une recette de post-entraînement entièrement open source et orientée capacités pour l'apprentissage par renforcement en contexte long avec récompenses vérifiables (RLVR). Les méthodes RL en contexte long existantes considèrent souvent la construction de données comme une question de conception de chemins de récupération de plus en plus complexes, conduisant à une couverture de tâches homogène et à des formulations de récompenses qui reflètent inadéquatement les exigences pratiques du contexte long. Notre travail apporte deux contributions. (1) Construction de données orientée capacités avec libération complète en open source. Nous libérons ouvertement un ensemble de données de 23 000 échantillons RLVR, le pipeline complet de construction et tout le code d'entraînement. Guidé par une taxonomie des capacités en contexte long, l'ensemble de données couvre 9 types de tâches, chacun associé à sa métrique d'évaluation naturelle. Il comprend des échantillons open source sélectionnés provenant de corpus établis et des échantillons synthétiques dont les paires Q/R sont générées à partir de documents sources réels tels que des livres, des articles académiques et des dialogues multi-tours. Avec la même configuration GRPO standard, notre seul ensemble de données surpasse l'ensemble de données closed-source QwenLong-L1.5. De plus, notre modèle Qwen3-30B-A3B entraîné sur ces données offre des performances en contexte long comparables à celles de DeepSeek-R1-0528 et Qwen3-235B-A22B-Thinking-2507, suggérant qu'une couverture plus large et une plus grande diversité de récompenses bénéficient substantiellement à l'amélioration des capacités en contexte long. (2) TMN-Reweight pour l'optimisation multitâche hétérogène. Pour relever les défis d'optimisation issus de récompenses hétérogènes, nous proposons TMN-Reweight, qui combine une normalisation par la moyenne au niveau des tâches pour l'alignement des échelles de récompenses entre tâches avec une pondération adaptative à la difficulté pour une estimation plus fiable de l'avantage. TMN-Reweight améliore en outre les performances moyennes par rapport au GRPO standard, les capacités générales étant préservées ou améliorées dans les évaluations rapportées.

English

We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.