LongTraceRL: 検索エージェントの軌跡からルーブリック報酬を用いた長文脈推論の学習
LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards
May 29, 2026
著者: Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li
cs.AI
要旨
長文脈推論は依然として大規模言語モデルにとって中心的な課題であり、膨大な妨害情報の中から重要な情報を特定し統合することにしばしば失敗する。検証可能な報酬を用いた強化学習(RLVR)はこのタスクに有望であることが示されているが、既存手法は混乱度の低い妨害情報に限定され、中間推論ステップを監督できない疎で結果のみの報酬信号に依存するという課題がある。これらの問題に対処するため、我々はLongTraceRLを導入する。データ構築においては、知識グラフ上のランダムウォークを介してマルチホップ質問を生成し、検索エージェントの軌跡を活用して階層的な妨害情報を構築する。すなわち、エージェントが読んだが引用しなかった文書(高混乱度)と、検索結果に現れたが開かれなかった文書(低混乱度)である。これにより、ランダムサンプリングやワンショット検索で構築されたものよりもはるかに挑戦的な訓練コンテキストが生成される。報酬設計においては、各推論連鎖上の正解エンティティを細粒度のエンティティレベルプロセス監視として用いるルーブリック報酬を提案する。このルーブリック報酬は、正しい最終回答を持つ応答にのみ適用され(正解のみ戦略)、正解応答間の推論品質を区別し、報酬ハッキングを防止する。3つの推論LLM(4B〜30B)を対象に5つの長文脈ベンチマークで実験を行った結果、LongTraceRLが強力なベースラインを一貫して上回り、包括的で証拠に基づく推論を促進することが示された。コード、データセット、モデルはhttps://github.com/THU-KEG/LongTraceRLで公開されている。
English
Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in extensive distracting content. Reinforcement learning with verifiable rewards (RLVR) has shown promise for this task, yet existing methods are limited by low-confusability distractors and sparse, outcome-only reward signals that cannot supervise intermediate reasoning steps. To address these issues, we introduce LongTraceRL. For data construction, we generate multi-hop questions via knowledge graph random walks and leverage search agent trajectories to build tiered distractors: documents the agent read but did not cite (high confusability) and documents that appeared in search results but were never opened (low confusability), producing training contexts that are far more challenging than those built by random sampling or one-shot search. For reward design, we propose a rubric reward that uses the gold entities along each reasoning chain as fine-grained, entity-level process supervision. This rubric reward is applied only to responses with correct final answers (positive-only strategy), distinguishing the reasoning quality among correct responses and preventing reward hacking. Experiments on three reasoning LLMs (4B--30B) across five long-context benchmarks demonstrate that LongTraceRL consistently outperforms strong baselines and encourages comprehensive, evidence-grounded reasoning. Codes, datasets and models are available at https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.