LongTraceRL: Leren van lang-context redeneren uit zoekagenttrajecten met rubricbeloningen

Samenvatting

Redeneren over lange contexten blijft een grote uitdaging voor grote taalmodellen, die vaak niet in staat zijn om sleutelinformatie te lokaliseren en te integreren in uitgebreide, afleidende inhoud. Bekrachtigingsleren met verifieerbare beloningen (RLVR) is veelbelovend gebleken voor deze taak, maar bestaande methoden worden beperkt door afleiders met een lage verwarrendheid en schaarse beloningssignalen die alleen het eindresultaat betreffen en geen toezicht kunnen houden op tussenliggende redeneerstappen. Om deze problemen aan te pakken introduceren we LongTraceRL. Voor gegevensconstructie genereren we meerstapsvragen via willekeurige wandelingen in kennisgrafen en gebruiken we trajecten van zoekagenten om gelaagde afleiders op te bouwen: documenten die de agent las maar niet citeerde (hoge verwarrendheid) en documenten die in zoekresultaten verschenen maar nooit werden geopend (lage verwarrendheid). Dit levert trainingscontexten op die veel uitdagender zijn dan die welke zijn gebouwd met willekeurige steekproeven of eenmalig zoeken. Voor beloningsontwerp stellen we een rubricbeloning voor die de gouden entiteiten langs elke redeneerketen gebruikt als fijnmazig toezicht op procesniveau op entiteitsniveau. Deze rubricbeloning wordt alleen toegepast op antwoorden met een correct eindantwoord (uitsluitend-positieve strategie), waardoor de redeneerkwaliteit onder correcte antwoorden wordt onderscheiden en beloningsmanipulatie wordt voorkomen. Experimenten op drie redeneer-LLM's (4B–30B) over vijf benchmarks voor lange contexten tonen aan dat LongTraceRL consequent beter presteert dan sterke referentiemodellen en uitgebreid, op bewijs gebaseerd redeneren bevordert. Code, datasets en modellen zijn beschikbaar op https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.

English

Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in extensive distracting content. Reinforcement learning with verifiable rewards (RLVR) has shown promise for this task, yet existing methods are limited by low-confusability distractors and sparse, outcome-only reward signals that cannot supervise intermediate reasoning steps. To address these issues, we introduce LongTraceRL. For data construction, we generate multi-hop questions via knowledge graph random walks and leverage search agent trajectories to build tiered distractors: documents the agent read but did not cite (high confusability) and documents that appeared in search results but were never opened (low confusability), producing training contexts that are far more challenging than those built by random sampling or one-shot search. For reward design, we propose a rubric reward that uses the gold entities along each reasoning chain as fine-grained, entity-level process supervision. This rubric reward is applied only to responses with correct final answers (positive-only strategy), distinguishing the reasoning quality among correct responses and preventing reward hacking. Experiments on three reasoning LLMs (4B--30B) across five long-context benchmarks demonstrate that LongTraceRL consistently outperforms strong baselines and encourages comprehensive, evidence-grounded reasoning. Codes, datasets and models are available at https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.