Проверяемые вознаграждения за пределами математики и кода: легковесный корпусно-обоснованный процессный контроль для ответов на фактические вопросы

Аннотация

Применение обучения с подкреплением для повышения фактической точности в вопросно-ответных системах, требующих интенсивного использования знаний, сталкивается с дилеммой проектирования вознаграждения. Вознаграждения на уровне ответов обеспечивают лишь грубое управление и не позволяют различать правильные и неправильные утверждения в цепочке рассуждений. Альтернативы на уровне предложений обеспечивают более детальную обратную связь, но обычно полагаются на верификаторы на основе логического вывода на естественном языке (NLI), экспертные оценки больших языковых моделей (LLM) или конвейеры верификации знаний, которые дороги в развертывании в масштабах обучения с подкреплением и часто ненадежны для фактов о редких сущностях, где точные сигналы вознаграждения особенно важны. Мы предлагаем CorVer (Corpus Verify) — легковесное, готовое к внедрению вознаграждение процесса, которое заменяет нейросетевые верификаторы сигналом, основанным на корпусе и полученным из статистики совместной встречаемости в Wikipedia. CorVer назначает оценку на уровне предложений и преобразует ее в преимущества на уровне токенов с помощью простого выравнивания, требуя лишь экстрактора с 0,5 млрд параметров и однократного обращения к корпусу на каждое предложение. На 30 комбинациях (модель, эталон), охватывающих шесть моделей, настроенных на выполнение инструкций (от 3 до 14 млрд параметров), и пять эталонов для вопросно-ответных задач (QA), CorVer превосходит исходный базовый уровень для каждой комбинации, со средним приростом +4,1 процентного пункта на TriviaQA. Он также превосходит четыре базовых метода на основе нейросетевых верификаторов в 18 из 20 комбинаций при их осуществимых конфигурациях, при этом обучение происходит в 4,8–8,4 раза быстрее.

English

Applying reinforcement learning to improve factual accuracy in knowledge-intensive question answering faces a reward design dilemma. Response-level rewards provide only coarse supervision and cannot distinguish correct from incorrect statements within a reasoning trace. Sentence-level alternatives offer finer-grained feedback, but typically rely on NLI verifiers, LLM judges, or knowledge-verification pipelines that are expensive to deploy at RL scale and often unreliable for rare-entity facts, where accurate reward signals are especially important. We propose CorVer (Corpus Verify), a lightweight, plug-in-ready process reward that replaces neural verifiers with a corpus-grounded signal derived from Wikipedia co-occurrence statistics. CorVer assigns sentence-level credit and maps it to token-level advantages via a simple alignment, requiring only a 0.5B extractor and a single corpus lookup per sentence. Across 30 (model, benchmark) cells spanning six instruction-tuned models (3B to 14B) and five QA benchmarks, CorVer improves over the raw baseline for every cell, with an average TriviaQA gain of +4.1 pp. It also outperforms four neural-verifier baselines in 18 of 20 cells under their feasible configurations, while training 4.8 to 8.4x faster.