Усеченная пошаговая выборка с процессуальными вознаграждениями для поисково-усиленного рассуждения
Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning
February 26, 2026
Авторы: Chris Samarinas, Haw-Shiuan Chang, Hamed Zamani
cs.AI
Аннотация
Обучение больших языковых моделей рассуждению с использованием поисковых систем посредством обучения с подкреплением затруднено фундаментальной проблемой распределения заслуг: существующие методы, такие как Search-R1, предоставляют лишь разреженное вознаграждение по итогу всей многошаговой траектории, что делает невозможным определение вклада отдельных решений в процессе рассуждения и поиска. Методы с пошаговым вознаграждением, такие как StepSearch, смягчают эту проблему за счет введения контроля на уровне шагов, но полагаются на эвристические вознаграждения, такие как TF-IDF совпадение с эталонными документами, и по-прежнему сэмплируют k полных траекторий на пример, сохраняя высокую дисперсию градиента. Мы предлагаем фреймворк SLATE, основанный на двух взаимодополняющих идеях: (1) усеченное пошаговое сэмплирование, которое генерирует k траекторий, имеющих общий префикс и различающихся только на следующем шаге, и (2) плотные вознаграждения от LLM-арбитра, которые заменяют эвристическую оценку на оценку способной языковой модели, оценивающей качество каждого шага рассуждения, поискового запроса и ответа, обеспечивая более богатый и надежный контроль. Теоретически мы доказываем, что при той же структуре плотного вознаграждения усеченное сэмплирование снижает дисперсию оценок преимущества до T раз по сравнению с полным сэмплированием траекторий для T-шаговых траекторий, что дает градиенты политики с меньшей дисперсией и более целенаправленные. Эксперименты на семи QA-бенчмарках подтверждают, что SLATE стабильно превосходит как базовые методы с разреженным вознаграждением, так и методы с пошаговым вознаграждением, с наибольшим преимуществом на более сложных многоходовых задачах и для моделей меньшего размера.
English
Training large language models to reason with search engines via reinforcement learning is hindered by a fundamental credit assignment problem: existing methods such as Search-R1 provide only a sparse outcome reward after an entire multi-step trajectory, making it infeasible to attribute success or failure to individual reasoning and retrieval decisions. Process-reward methods like StepSearch alleviate this by introducing step-level supervision, but rely on heuristic rewards such as TF-IDF overlap with gold documents, and still sample k complete trajectories per example, retaining high gradient variance. We propose SLATE, a framework built on two complementary ideas: (1) truncated step-level sampling, which generates k trajectories that share a common prefix and differ only at the next step, and (2) dense LLM-as-judge rewards, which replace heuristic scoring with a capable LLM evaluator that assesses the quality of each reasoning step, search query, and answer, providing richer and more reliable supervision. We theoretically prove that under the same dense reward structure, truncated sampling reduces the variance of advantage estimates by up to a factor of T compared to full-trajectory sampling for T-step trajectories, yielding lower-variance, better-targeted policy gradients. Experiments on seven QA benchmarks confirm that SLATE consistently outperforms both sparse-reward and process-reward baselines, with the largest gains on harder multi-hop tasks and smaller models.