LongTraceRL: Обучение длинноконтекстному рассуждению на основе траекторий поискового агента с рубричными вознаграждениями

Аннотация

Долгоконтекстное рассуждение остается ключевой задачей для больших языковых моделей, которые часто не могут найти и интегрировать ключевую информацию среди обширного отвлекающего контента. Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) продемонстрировало перспективность для этой задачи, однако существующие методы ограничены дистракторами с низкой запутанностью и разреженными сигналами вознаграждения, ориентированными только на результат, которые не могут контролировать промежуточные шаги рассуждения. Для решения этих проблем мы представляем LongTraceRL. Для построения данных мы генерируем многопереходные вопросы с помощью случайных блужданий по графу знаний и используем траектории поискового агента для создания иерархических дистракторов: документов, которые агент прочитал, но не процитировал (высокая запутанность), и документов, которые появились в результатах поиска, но никогда не открывались (низкая запутанность). Это создает обучающие контексты, значительно более сложные, чем те, что построены с помощью случайной выборки или одноразового поиска. Для разработки вознаграждения мы предлагаем рубричное вознаграждение, которое использует истинные сущности вдоль каждой цепочки рассуждения в качестве мелкозернистого контроля процесса на уровне сущностей. Это рубричное вознаграждение применяется только к ответам с правильными итоговыми ответами (стратегия только положительных ответов), что позволяет различать качество рассуждений среди правильных ответов и предотвращает взлом вознаграждения. Эксперименты на трех моделях LLM для рассуждения (4B–30B) по пяти долгоконтекстным эталонным тестам показывают, что LongTraceRL стабильно превосходит сильные базовые линии и способствует всестороннему, обоснованному доказательствами рассуждению. Коды, наборы данных и модели доступны по адресу https://github.com/THU-KEG/LongTraceRL.

English

Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in extensive distracting content. Reinforcement learning with verifiable rewards (RLVR) has shown promise for this task, yet existing methods are limited by low-confusability distractors and sparse, outcome-only reward signals that cannot supervise intermediate reasoning steps. To address these issues, we introduce LongTraceRL. For data construction, we generate multi-hop questions via knowledge graph random walks and leverage search agent trajectories to build tiered distractors: documents the agent read but did not cite (high confusability) and documents that appeared in search results but were never opened (low confusability), producing training contexts that are far more challenging than those built by random sampling or one-shot search. For reward design, we propose a rubric reward that uses the gold entities along each reasoning chain as fine-grained, entity-level process supervision. This rubric reward is applied only to responses with correct final answers (positive-only strategy), distinguishing the reasoning quality among correct responses and preventing reward hacking. Experiments on three reasoning LLMs (4B--30B) across five long-context benchmarks demonstrate that LongTraceRL consistently outperforms strong baselines and encourages comprehensive, evidence-grounded reasoning. Codes, datasets and models are available at https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.