LongTraceRL: Lernen von Langkontext-Schlussfolgerungen aus Suchagenten-Trajektorien mit Rubrik-Belohnungen

Zusammenfassung

Das Reasoning über lange Kontexte bleibt eine zentrale Herausforderung für große Sprachmodelle, die oft Schwierigkeiten haben, relevante Informationen in umfangreichen, ablenkenden Inhalten zu lokalisieren und zu integrieren. Bestärkungslernen mit überprüfbaren Belohnungen (RLVR) hat sich für diese Aufgabe als vielversprechend erwiesen, doch bestehende Methoden werden durch wenig verwechselbare Ablenkungen und spärliche, rein ergebnisbasierte Belohnungssignale eingeschränkt, die keine Zwischenschritte im Reasoning überwachen können. Um diese Probleme zu adressieren, führen wir LongTraceRL ein. Für die Datenkonstruktion generieren wir Multi-Hop-Fragen mittels Zufallspfaden in Wissensgraphen und nutzen Suchagenten-Trajektorien, um abgestufte Ablenkungen zu erzeugen: Dokumente, die der Agent las, aber nicht zitierte (hohe Verwechselbarkeit), und Dokumente, die in Suchergebnissen auftauchten, aber nie geöffnet wurden (geringe Verwechselbarkeit). Dadurch entstehen Trainingskontexte, die weitaus anspruchsvoller sind als solche, die durch zufällige Stichproben oder einmalige Suchen erstellt wurden. Für das Belohnungsdesign schlagen wir eine Rubriken-Belohnung vor, die die Gold-Entitäten entlang jeder Reasoning-Kette als feinkörnige, entitätsbasierte Prozessüberwachung nutzt. Diese Rubriken-Belohnung wird nur auf Antworten mit korrekten Endergebnissen angewendet (Positiv-nur-Strategie), wodurch die Reasoning-Qualität unter korrekten Antworten unterschieden und Belohnungshacking verhindert wird. Experimente mit drei Reasoning-LLMs (4B–30B) über fünf Benchmarks für lange Kontexte zeigen, dass LongTraceRL durchgängig starke Baselines übertrifft und ein umfassendes, evidenzbasiertes Reasoning fördert. Codes, Datensätze und Modelle sind verfügbar unter https://github.com/THU-KEG/LongTraceRL.

English

Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in extensive distracting content. Reinforcement learning with verifiable rewards (RLVR) has shown promise for this task, yet existing methods are limited by low-confusability distractors and sparse, outcome-only reward signals that cannot supervise intermediate reasoning steps. To address these issues, we introduce LongTraceRL. For data construction, we generate multi-hop questions via knowledge graph random walks and leverage search agent trajectories to build tiered distractors: documents the agent read but did not cite (high confusability) and documents that appeared in search results but were never opened (low confusability), producing training contexts that are far more challenging than those built by random sampling or one-shot search. For reward design, we propose a rubric reward that uses the gold entities along each reasoning chain as fine-grained, entity-level process supervision. This rubric reward is applied only to responses with correct final answers (positive-only strategy), distinguishing the reasoning quality among correct responses and preventing reward hacking. Experiments on three reasoning LLMs (4B--30B) across five long-context benchmarks demonstrate that LongTraceRL consistently outperforms strong baselines and encourages comprehensive, evidence-grounded reasoning. Codes, datasets and models are available at https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.