LongTraceRL : Apprentissage du raisonnement à long contexte à partir de trajectoires d'agents de recherche avec récompenses par grille d'évaluation

Résumé

Le raisonnement à long contexte reste un défi central pour les grands modèles de langage, qui échouent souvent à localiser et intégrer des informations clés dans un contenu distracteur étendu. L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a montré des promesses pour cette tâche, mais les méthodes existantes sont limitées par des distracteurs à faible confusion et des signaux de récompense clairsemés, uniquement basés sur les résultats, qui ne peuvent pas superviser les étapes de raisonnement intermédiaires. Pour résoudre ces problèmes, nous introduisons LongTraceRL. Pour la construction des données, nous générons des questions à plusieurs sauts via des marches aléatoires sur un graphe de connaissances et exploitons les trajectoires d'agents de recherche pour construire des distracteurs hiérarchisés : les documents que l'agent a lus mais n'a pas cités (haute confusion) et les documents qui apparaissaient dans les résultats de recherche mais n'ont jamais été ouverts (faible confusion), produisant des contextes d'entraînement bien plus difficiles que ceux construits par échantillonnage aléatoire ou recherche ponctuelle. Pour la conception des récompenses, nous proposons une récompense basée sur une grille d'évaluation qui utilise les entités d'or le long de chaque chaîne de raisonnement comme une supervision de processus fine au niveau des entités. Cette récompense de grille n'est appliquée qu'aux réponses avec des réponses finales correctes (stratégie positive uniquement), distinguant la qualité du raisonnement parmi les réponses correctes et empêchant le détournement de récompense. Des expériences sur trois LLMs de raisonnement (4B à 30B) sur cinq benchmarks de long contexte démontrent que LongTraceRL surpasse constamment les bases solides et encourage un raisonnement complet et fondé sur des preuves. Les codes, ensembles de données et modèles sont disponibles à l'adresse https://github.com/THU-KEG/LongTraceRL.

English

Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in extensive distracting content. Reinforcement learning with verifiable rewards (RLVR) has shown promise for this task, yet existing methods are limited by low-confusability distractors and sparse, outcome-only reward signals that cannot supervise intermediate reasoning steps. To address these issues, we introduce LongTraceRL. For data construction, we generate multi-hop questions via knowledge graph random walks and leverage search agent trajectories to build tiered distractors: documents the agent read but did not cite (high confusability) and documents that appeared in search results but were never opened (low confusability), producing training contexts that are far more challenging than those built by random sampling or one-shot search. For reward design, we propose a rubric reward that uses the gold entities along each reasoning chain as fine-grained, entity-level process supervision. This rubric reward is applied only to responses with correct final answers (positive-only strategy), distinguishing the reasoning quality among correct responses and preventing reward hacking. Experiments on three reasoning LLMs (4B--30B) across five long-context benchmarks demonstrate that LongTraceRL consistently outperforms strong baselines and encourages comprehensive, evidence-grounded reasoning. Codes, datasets and models are available at https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.