GoLongRL: Способностно-ориентированное обучение с подкреплением на длинном контексте с многозадачным согласованием

Аннотация

Мы представляем GoLongRL — полностью открытую рецептуру пост-тренировки, ориентированную на формирование способностей для обучения с подкреплением на основе верифицируемых вознаграждений (RLVR) в длинных контекстах. Существующие методы RL для длинных контекстов часто рассматривают построение данных как задачу проектирования всё более сложных путей извлечения, что приводит к однородному охвату задач и формулировкам вознаграждения, неадекватно отражающим практические требования работы с длинными контекстами. Наша работа предлагает два вклада. (1) Построение данных, ориентированное на способности, с полным открытым релизом. Мы открыто публикуем набор данных из 23 тысяч примеров RLVR, полный конвейер их построения и весь обучающий код. Руководствуясь таксономией способностей к работе с длинными контекстами, набор данных охватывает 9 типов задач, каждая из которых снабжена своей естественной оценочной метрикой. Он включает отобранные открытые примеры из известных корпусов и синтетические примеры, пары вопрос-ответ для которых генерируются из реальных исходных документов, таких как книги, научные статьи и многораундовые диалоги. В той же базовой конфигурации GRPO только наш набор данных превосходит закрытый набор QwenLong-L1.5. Более того, наша модель Qwen3-30B-A3B, обученная на этих данных, демонстрирует производительность на длинных контекстах, сравнимую с DeepSeek-R1-0528 и Qwen3-235B-A22B-Thinking-2507, что позволяет предположить, что более широкий охват и большее разнообразие вознаграждений существенно способствуют улучшению способностей к работе с длинными контекстами. (2) TMN-Reweight для гетерогенной многозадачной оптимизации. Для решения проблем оптимизации, связанных с гетерогенными вознаграждениями, мы предлагаем TMN-Reweight, который объединяет среднюю нормализацию на уровне задач для выравнивания шкал вознаграждений между задачами с адаптивным взвешиванием по сложности для более надежной оценки преимущества. TMN-Reweight дополнительно улучшает среднюю производительность по сравнению с базовым GRPO, при этом общие способности сохраняются или улучшаются по всем представленным оценкам.

English

We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.