ChatPaper.aiChatPaper

검증 가능한 보상의 확장: 수학과 코드를 넘어선 경량화된 코퍼스 기반 과정 감독을 통한 사실 기반 질문 응답

Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

May 28, 2026
저자: Shicheng Fan, Haochang Hao, Dehai Min, Weihao Liu, Philip S. Yu, Lu Cheng
cs.AI

초록

지식 집약적 질의응답에서 사실적 정확성을 개선하기 위해 강화 학습을 적용할 때 보상 설계 딜레마가 발생한다. 응답 수준 보상은 거친 수준의 감독만을 제공하며 추론 과정 내에서 올바른 진술과 잘못된 진술을 구분할 수 없다. 문장 수준 대안은 더 세분화된 피드백을 제공하지만, 일반적으로 NLI 검증기, LLM 판별기 또는 지식 검증 파이프라인에 의존하며, 이는 강화 학습 규모에서 배포하기에 비용이 많이 들고, 특히 정확한 보상 신호가 중요한 희소 개체 사실에 대해 종종 신뢰할 수 없다. 우리는 신경 검증기를 위키피디아 동시 발생 통계에서 파생된 코퍼스 기반 신호로 대체하는 경량의 플러그인 방식 프로세스 보상인 CorVer(Corpus Verify)를 제안한다. CorVer는 문장 수준의 신용을 할당하고 간단한 정렬을 통해 이를 토큰 수준 이점에 매핑하며, 문장당 5억 개 규모의 추출기와 단일 코퍼스 조회만을 필요로 한다. 여섯 가지 명령어 튜닝 모델(3B~14B)과 다섯 가지 QA 벤치마크에 걸친 30개(모델, 벤치마크) 셀에서 CorVer는 모든 셀에 대해 원시 기준선 대비 성능을 향상시켰으며, TriviaQA에서 평균 +4.1% 포인트의 이득을 보였다. 또한 실행 가능한 구성 하에서 20개 셀 중 18개에서 네 가지 신경 검증기 기준선을 능가했으며, 훈련 속도는 4.8배에서 8.4배 더 빨랐다.
English
Applying reinforcement learning to improve factual accuracy in knowledge-intensive question answering faces a reward design dilemma. Response-level rewards provide only coarse supervision and cannot distinguish correct from incorrect statements within a reasoning trace. Sentence-level alternatives offer finer-grained feedback, but typically rely on NLI verifiers, LLM judges, or knowledge-verification pipelines that are expensive to deploy at RL scale and often unreliable for rare-entity facts, where accurate reward signals are especially important. We propose CorVer (Corpus Verify), a lightweight, plug-in-ready process reward that replaces neural verifiers with a corpus-grounded signal derived from Wikipedia co-occurrence statistics. CorVer assigns sentence-level credit and maps it to token-level advantages via a simple alignment, requiring only a 0.5B extractor and a single corpus lookup per sentence. Across 30 (model, benchmark) cells spanning six instruction-tuned models (3B to 14B) and five QA benchmarks, CorVer improves over the raw baseline for every cell, with an average TriviaQA gain of +4.1 pp. It also outperforms four neural-verifier baselines in 18 of 20 cells under their feasible configurations, while training 4.8 to 8.4x faster.