Verifieerbare beloningen voorbij wiskunde en code: lichtgewicht corpus-gefundeerde proces-supervisie voor feitelijke vraagbeantwoording

Samenvatting

Het toepassen van versterkend leren om de feitelijke nauwkeurigheid in kennisintensieve vraagbeantwoording te verbeteren, stuit op een dilemma bij het ontwerpen van beloningen. Beloningen op antwoordniveau bieden slechts grove begeleiding en kunnen correcte van incorrecte uitspraken binnen een redeneerspoor niet onderscheiden. Alternatieven op zinsniveau leveren fijnmazigere feedback, maar zijn doorgaans afhankelijk van NLI-verifieerders, LLM-beoordelaars of kennisverificatiepijplijnen die kostbaar zijn om op schaal van versterkend leren in te zetten en vaak onbetrouwbaar voor feiten over zeldzame entiteiten, waar accurate beloningssignalen bijzonder belangrijk zijn. Wij stellen CorVer (Corpus Verify) voor, een lichtgewicht, direct inzetbare procesbeloning die neurale verifieerders vervangt door een corpus-gefundeerd signaal afgeleid van co-occurrentiestatistieken uit Wikipedia. CorVer kent krediet toe op zinsniveau en vertaalt dit via een eenvoudige afstemming naar voordelen op token-niveau, waarbij slechts een extractor van 0,5B en één enkele corpusopvraging per zin nodig zijn. Over 30 (model, benchmark)-cellen verdeeld over zes instructie-afgestemde modellen (3B tot 14B) en vijf QA-benchmarks heen, verbetert CorVer de ruwe basislijn voor elke cel, met een gemiddelde TriviaQA-winst van +4,1 procentpunt. Het presteert ook beter dan vier neurale verifieerder-basislijnen in 18 van de 20 cellen onder hun haalbare configuraties, terwijl het 4,8 tot 8,4 keer sneller traint.

English

Applying reinforcement learning to improve factual accuracy in knowledge-intensive question answering faces a reward design dilemma. Response-level rewards provide only coarse supervision and cannot distinguish correct from incorrect statements within a reasoning trace. Sentence-level alternatives offer finer-grained feedback, but typically rely on NLI verifiers, LLM judges, or knowledge-verification pipelines that are expensive to deploy at RL scale and often unreliable for rare-entity facts, where accurate reward signals are especially important. We propose CorVer (Corpus Verify), a lightweight, plug-in-ready process reward that replaces neural verifiers with a corpus-grounded signal derived from Wikipedia co-occurrence statistics. CorVer assigns sentence-level credit and maps it to token-level advantages via a simple alignment, requiring only a 0.5B extractor and a single corpus lookup per sentence. Across 30 (model, benchmark) cells spanning six instruction-tuned models (3B to 14B) and five QA benchmarks, CorVer improves over the raw baseline for every cell, with an average TriviaQA gain of +4.1 pp. It also outperforms four neural-verifier baselines in 18 of 20 cells under their feasible configurations, while training 4.8 to 8.4x faster.