GoLongRL: Aprendizagem por Reforço de Contexto Longo Orientada a Capacidades com Alinhamento Multitarefa

Resumo

Apresentamos o GoLongRL, uma receita de pós-treinamento totalmente open-source e orientada a capacidades para aprendizado por reforço de contexto longo com recompensas verificáveis (RLVR). Métodos existentes de RL de contexto longo frequentemente tratam a construção de dados como uma questão de projetar caminhos de recuperação cada vez mais complexos, levando a uma cobertura homogênea de tarefas e formulações de recompensa que refletem inadequadamente os requisitos práticos de contexto longo. Nosso trabalho oferece duas contribuições. (1) Construção de dados orientada a capacidades com liberação total open-source. Disponibilizamos abertamente um conjunto de dados de 23K amostras RLVR, o pipeline completo de construção e todo o código de treinamento. Guiado por uma taxonomia de capacidades de contexto longo, o conjunto de dados abrange 9 tipos de tarefa, cada um emparelhado com sua métrica de avaliação natural. Ele compreende amostras open-source selecionadas de corpora estabelecidos e amostras sintéticas cujos pares de Q&A são gerados a partir de documentos fonte reais, como livros, artigos acadêmicos e diálogos multi-turno. Sob a mesma configuração vanilla GRPO, nosso conjunto de dados supera o conjunto de dados fechado QwenLong-L1.5. Além disso, nosso modelo Qwen3-30B-A3B treinado nesses dados oferece desempenho de contexto longo comparável ao DeepSeek-R1-0528 e Qwen3-235B-A22B-Thinking-2507, sugerindo que uma cobertura mais ampla e maior diversidade de recompensas beneficiam substancialmente a melhoria da capacidade de contexto longo. (2) TMN-Reweight para otimização multitarefa heterogênea. Para lidar com os desafios de otimização decorrentes de recompensas heterogêneas, propomos o TMN-Reweight, que combina normalização da média ao nível da tarefa para alinhamento da escala de recompensas entre tarefas com ponderação adaptativa à dificuldade para uma estimativa de vantagem mais confiável. O TMN-Reweight melhora ainda mais o desempenho médio em relação ao GRPO vanilla, com capacidades gerais preservadas ou melhoradas nas avaliações relatadas.

English

We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.