ChatPaper.aiChatPaper

GoLongRL: Aprendizaje por Refuerzo de Contexto Largo Orientado a Capacidades con Alineamiento de Múltiples Tareas

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

May 19, 2026
Autores: Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li
cs.AI

Resumen

Presentamos GoLongRL, una receta de post-entrenamiento totalmente open source y orientada a capacidades para el aprendizaje por refuerzo de contexto largo con recompensas verificables (RLVR). Los métodos existentes de RL de contexto largo a menudo tratan la construcción de datos como una cuestión de diseñar rutas de recuperación cada vez más complejas, lo que genera una cobertura homogénea de tareas y formulaciones de recompensa que reflejan inadecuadamente los requisitos prácticos de contexto largo. Nuestro trabajo ofrece dos contribuciones. (1) Construcción de datos orientada a capacidades con publicación abierta completa. Publicamos abiertamente un conjunto de datos de 23K muestras RLVR, el pipeline de construcción completo y todo el código de entrenamiento. Guiado por una taxonomía de capacidades de contexto largo, el conjunto de datos abarca 9 tipos de tareas, cada uno emparejado con su métrica de evaluación natural. Comprende muestras de código abierto seleccionadas de corpus establecidos y muestras sintéticas cuyos pares de preguntas y respuestas se generan a partir de documentos fuente reales, como libros, artículos académicos y diálogos de múltiples turnos. Bajo la misma configuración de GRPO estándar, nuestro conjunto de datos supera por sí solo al conjunto de datos cerrado QwenLong-L1.5. Además, nuestro modelo Qwen3-30B-A3B entrenado con estos datos ofrece un rendimiento de contexto largo comparable a DeepSeek-R1-0528 y Qwen3-235B-A22B-Thinking-2507, lo que sugiere que una cobertura más amplia y una mayor diversidad de recompensas benefician sustancialmente la mejora de las capacidades de contexto largo. (2) TMN-Reweight para optimización multitarea heterogénea. Para abordar los desafíos de optimización derivados de recompensas heterogéneas, proponemos TMN-Reweight, que combina la normalización media a nivel de tarea para la alineación de escalas de recompensa entre tareas con un ponderado adaptativo a la dificultad para una estimación de ventaja más fiable. TMN-Reweight mejora aún más el rendimiento promedio sobre GRPO estándar, con capacidades generales preservadas o mejoradas en las evaluaciones reportadas.
English
We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.