Recompensas verificables más allá de las matemáticas y el código: Supervisión de procesos ligera basada en corpus para la respuesta a preguntas factuales

Resumen

La aplicación del aprendizaje por refuerzo para mejorar la precisión factual en la respuesta a preguntas intensivas en conocimiento se enfrenta a un dilema en el diseño de la recompensa. Las recompensas a nivel de respuesta ofrecen una supervisión únicamente gruesa y no pueden distinguir entre afirmaciones correctas e incorrectas dentro de una traza de razonamiento. Las alternativas a nivel de oración brindan retroalimentación más fina, pero típicamente dependen de verificadores NLI, evaluadores LLM o tuberías de verificación de conocimiento que son costosas de implementar a escala de aprendizaje por refuerzo y, a menudo, poco fiables para hechos con entidades raras, donde las señales de recompensa precisas son especialmente importantes. Proponemos CorVer (Corpus Verify), una recompensa de proceso ligera y lista para integración que reemplaza los verificadores neuronales con una señal basada en corpus derivada de estadísticas de co-ocurrencia de Wikipedia. CorVer asigna crédito a nivel de oración y lo transforma en ventajas a nivel de token mediante una alineación simple, requiriendo solo un extractor de 0.5B y una única consulta al corpus por oración. En 30 celdas (modelo, referencia) que abarcan seis modelos ajustados por instrucciones (de 3B a 14B) y cinco referencias de preguntas y respuestas, CorVer mejora con respecto a la línea base inicial en cada celda, con una ganancia promedio de +4.1 puntos porcentuales en TriviaQA. También supera a cuatro líneas base de verificador neuronal en 18 de 20 celdas bajo sus configuraciones factibles, mientras entrena 4.8 a 8.4 veces más rápido.

English

Applying reinforcement learning to improve factual accuracy in knowledge-intensive question answering faces a reward design dilemma. Response-level rewards provide only coarse supervision and cannot distinguish correct from incorrect statements within a reasoning trace. Sentence-level alternatives offer finer-grained feedback, but typically rely on NLI verifiers, LLM judges, or knowledge-verification pipelines that are expensive to deploy at RL scale and often unreliable for rare-entity facts, where accurate reward signals are especially important. We propose CorVer (Corpus Verify), a lightweight, plug-in-ready process reward that replaces neural verifiers with a corpus-grounded signal derived from Wikipedia co-occurrence statistics. CorVer assigns sentence-level credit and maps it to token-level advantages via a simple alignment, requiring only a 0.5B extractor and a single corpus lookup per sentence. Across 30 (model, benchmark) cells spanning six instruction-tuned models (3B to 14B) and five QA benchmarks, CorVer improves over the raw baseline for every cell, with an average TriviaQA gain of +4.1 pp. It also outperforms four neural-verifier baselines in 18 of 20 cells under their feasible configurations, while training 4.8 to 8.4x faster.