GoLongRL: Aprendizaje por Refuerzo de Contexto Largo Orientado a Capacidades con Alineamiento de Múltiples Tareas

Resumen

Presentamos GoLongRL, una receta de post-entrenamiento totalmente open source y orientada a capacidades para el aprendizaje por refuerzo de contexto largo con recompensas verificables (RLVR). Los métodos existentes de RL de contexto largo a menudo tratan la construcción de datos como una cuestión de diseñar rutas de recuperación cada vez más complejas, lo que genera una cobertura homogénea de tareas y formulaciones de recompensa que reflejan inadecuadamente los requisitos prácticos de contexto largo. Nuestro trabajo ofrece dos contribuciones. (1) Construcción de datos orientada a capacidades con publicación abierta completa. Publicamos abiertamente un conjunto de datos de 23K muestras RLVR, el pipeline de construcción completo y todo el código de entrenamiento. Guiado por una taxonomía de capacidades de contexto largo, el conjunto de datos abarca 9 tipos de tareas, cada uno emparejado con su métrica de evaluación natural. Comprende muestras de código abierto seleccionadas de corpus establecidos y muestras sintéticas cuyos pares de preguntas y respuestas se generan a partir de documentos fuente reales, como libros, artículos académicos y diálogos de múltiples turnos. Bajo la misma configuración de GRPO estándar, nuestro conjunto de datos supera por sí solo al conjunto de datos cerrado QwenLong-L1.5. Además, nuestro modelo Qwen3-30B-A3B entrenado con estos datos ofrece un rendimiento de contexto largo comparable a DeepSeek-R1-0528 y Qwen3-235B-A22B-Thinking-2507, lo que sugiere que una cobertura más amplia y una mayor diversidad de recompensas benefician sustancialmente la mejora de las capacidades de contexto largo. (2) TMN-Reweight para optimización multitarea heterogénea. Para abordar los desafíos de optimización derivados de recompensas heterogéneas, proponemos TMN-Reweight, que combina la normalización media a nivel de tarea para la alineación de escalas de recompensa entre tareas con un ponderado adaptativo a la dificultad para una estimación de ventaja más fiable. TMN-Reweight mejora aún más el rendimiento promedio sobre GRPO estándar, con capacidades generales preservadas o mejoradas en las evaluaciones reportadas.

English

We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.