LongTraceRL: Aprendizado de Raciocínio de Contexto Longo a partir de Trajetórias de Agentes de Busca com Recompensas de Rubrica

Resumo

O raciocínio em contextos longos continua sendo um desafio central para grandes modelos de linguagem, que frequentemente falham em localizar e integrar informações-chave em conteúdo extenso e distrativo. O aprendizado por reforço com recompensas verificáveis (RLVR) tem se mostrado promissor para essa tarefa, mas os métodos existentes são limitados por distratores de baixa confusibilidade e sinais de recompensa esparsos e baseados apenas no resultado, que não podem supervisionar etapas intermediárias de raciocínio. Para lidar com essas questões, apresentamos o LongTraceRL. Para a construção de dados, geramos perguntas de múltiplos saltos por meio de caminhadas aleatórias em grafos de conhecimento e aproveitamos as trajetórias do agente de busca para construir distratores em camadas: documentos que o agente leu, mas não citou (alta confusibilidade) e documentos que apareceram nos resultados da busca, mas nunca foram abertos (baixa confusibilidade), produzindo contextos de treinamento muito mais desafiadores do que aqueles construídos por amostragem aleatória ou busca única. Para o design da recompensa, propomos uma recompensa de rubrica que utiliza as entidades douradas ao longo de cada cadeia de raciocínio como uma supervisão de processo refinada, no nível de entidade. Essa recompensa de rubrica é aplicada apenas a respostas com respostas finais corretas (estratégia apenas positiva), distinguindo a qualidade do raciocínio entre respostas corretas e prevenindo o desvio de recompensa. Experimentos em três LLMs de raciocínio (4B--30B) em cinco benchmarks de contexto longo demonstram que o LongTraceRL supera consistentemente linhas de base fortes e incentiva um raciocínio abrangente e fundamentado em evidências. Códigos, conjuntos de dados e modelos estão disponíveis em https://github.com/THU-KEG/LongTraceRL.

English

Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in extensive distracting content. Reinforcement learning with verifiable rewards (RLVR) has shown promise for this task, yet existing methods are limited by low-confusability distractors and sparse, outcome-only reward signals that cannot supervise intermediate reasoning steps. To address these issues, we introduce LongTraceRL. For data construction, we generate multi-hop questions via knowledge graph random walks and leverage search agent trajectories to build tiered distractors: documents the agent read but did not cite (high confusability) and documents that appeared in search results but were never opened (low confusability), producing training contexts that are far more challenging than those built by random sampling or one-shot search. For reward design, we propose a rubric reward that uses the gold entities along each reasoning chain as fine-grained, entity-level process supervision. This rubric reward is applied only to responses with correct final answers (positive-only strategy), distinguishing the reasoning quality among correct responses and preventing reward hacking. Experiments on three reasoning LLMs (4B--30B) across five long-context benchmarks demonstrate that LongTraceRL consistently outperforms strong baselines and encourages comprehensive, evidence-grounded reasoning. Codes, datasets and models are available at https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.