Verifizierbare Belohnungen jenseits von Mathematik und Code: Leichtgewichtige korpusgestützte Prozessüberwachung für die Beantwortung faktischer Fragen

Zusammenfassung

Die Anwendung von bestärkendem Lernen zur Verbesserung der faktischen Genauigkeit bei wissensintensiver Fragebeantwortung steht vor einem Dilemma bei der Gestaltung der Belohnungen. Belohnungen auf Antwortebene bieten nur eine grobe Überwachung und können im Argumentationspfad nicht zwischen korrekten und inkorrekten Aussagen unterscheiden. Alternativen auf Satzebene liefern ein feinkörnigeres Feedback, stützen sich jedoch typischerweise auf NLI-Prüfer, LLM-Richter oder Wissensverifikations-Pipelines, deren Einsatz im RL-Maßstab teuer ist und die insbesondere bei Fakten zu seltenen Entitäten oft unzuverlässig sind – dort, wo präzise Belohnungssignale besonders wichtig sind. Wir schlagen CorVer (Corpus Verify) vor, eine leichte, plug-in-fähige Prozessbelohnung, die neuronale Prüfer durch ein korpusbasiertes Signal ersetzt, das aus Wikipedia-Kookkurrenzstatistiken gewonnen wird. CorVer weist Belohnungen auf Satzebene zu und überträgt diese über eine einfache Zuordnung auf Token-Vorteile. Dazu werden lediglich ein 0,5B-Extraktor und eine einzelne Korpusabfrage pro Satz benötigt. Über 30 (Modell, Benchmark)-Zellen, die sechs instruktionsabgestimmte Modelle (3B bis 14B) und fünf QA-Benchmarks abdecken, verbessert CorVer die Ausgangsbasis in jeder einzelnen Zelle, mit einem durchschnittlichen Zugewinn von +4,1 Prozentpunkten bei TriviaQA. Außerdem übertrifft CorVer vier neuronale Prüfbaselines in 18 von 20 Zellen unter deren durchführbaren Konfigurationen und ist dabei 4,8- bis 8,4-mal schneller im Training.

English

Applying reinforcement learning to improve factual accuracy in knowledge-intensive question answering faces a reward design dilemma. Response-level rewards provide only coarse supervision and cannot distinguish correct from incorrect statements within a reasoning trace. Sentence-level alternatives offer finer-grained feedback, but typically rely on NLI verifiers, LLM judges, or knowledge-verification pipelines that are expensive to deploy at RL scale and often unreliable for rare-entity facts, where accurate reward signals are especially important. We propose CorVer (Corpus Verify), a lightweight, plug-in-ready process reward that replaces neural verifiers with a corpus-grounded signal derived from Wikipedia co-occurrence statistics. CorVer assigns sentence-level credit and maps it to token-level advantages via a simple alignment, requiring only a 0.5B extractor and a single corpus lookup per sentence. Across 30 (model, benchmark) cells spanning six instruction-tuned models (3B to 14B) and five QA benchmarks, CorVer improves over the raw baseline for every cell, with an average TriviaQA gain of +4.1 pp. It also outperforms four neural-verifier baselines in 18 of 20 cells under their feasible configurations, while training 4.8 to 8.4x faster.