LongTraceRL: Aprendizaje de Razonamiento de Contexto Largo a partir de Trayectorias de Agentes de Búsqueda con Recompensas de Rúbrica

Resumen

El razonamiento en contextos largos sigue siendo un desafío central para los modelos de lenguaje extensos, que a menudo fallan en localizar e integrar información clave en medio de grandes cantidades de contenido distractivo. El aprendizaje por refuerzo con recompensas verificables (RLVR) ha mostrado ser prometedor para esta tarea, pero los métodos existentes están limitados por distractores de baja confundibilidad y señales de recompensa dispersas basadas únicamente en el resultado final, que no pueden supervisar los pasos intermedios del razonamiento. Para abordar estos problemas, presentamos LongTraceRL. En cuanto a la construcción de datos, generamos preguntas de múltiples saltos mediante caminatas aleatorias en grafos de conocimiento y aprovechamos las trayectorias de agentes de búsqueda para construir distractores escalonados: documentos que el agente leyó pero no citó (alta confundibilidad) y documentos que aparecieron en los resultados de búsqueda pero nunca fueron abiertos (baja confundibilidad), lo que produce contextos de entrenamiento mucho más desafiantes que aquellos construidos mediante muestreo aleatorio o búsqueda de un solo paso. Para el diseño de recompensas, proponemos una recompensa basada en rúbrica que utiliza las entidades doradas a lo largo de cada cadena de razonamiento como supervisión de proceso a nivel de entidad finamente granulada. Esta recompensa de rúbrica se aplica únicamente a respuestas con la respuesta final correcta (estrategia solo positiva), distinguiendo la calidad del razonamiento entre respuestas correctas y evitando el hackeo de recompensas. Los experimentos en tres LLMs de razonamiento (4B–30B) en cinco puntos de referencia de contexto largo demuestran que LongTraceRL supera consistentemente a las líneas base sólidas y fomenta un razonamiento completo y basado en evidencia. Los códigos, conjuntos de datos y modelos están disponibles en https://github.com/THU-KEG/LongTraceRL.

English

Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in extensive distracting content. Reinforcement learning with verifiable rewards (RLVR) has shown promise for this task, yet existing methods are limited by low-confusability distractors and sparse, outcome-only reward signals that cannot supervise intermediate reasoning steps. To address these issues, we introduce LongTraceRL. For data construction, we generate multi-hop questions via knowledge graph random walks and leverage search agent trajectories to build tiered distractors: documents the agent read but did not cite (high confusability) and documents that appeared in search results but were never opened (low confusability), producing training contexts that are far more challenging than those built by random sampling or one-shot search. For reward design, we propose a rubric reward that uses the gold entities along each reasoning chain as fine-grained, entity-level process supervision. This rubric reward is applied only to responses with correct final answers (positive-only strategy), distinguishing the reasoning quality among correct responses and preventing reward hacking. Experiments on three reasoning LLMs (4B--30B) across five long-context benchmarks demonstrate that LongTraceRL consistently outperforms strong baselines and encourages comprehensive, evidence-grounded reasoning. Codes, datasets and models are available at https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.