Recompensas Verificáveis Além da Matemática e do Código: Supervisão de Processo Leve Fundamentada em Corpus para Resposta a Perguntas Factuais

Resumo

A aplicação de aprendizado por reforço para melhorar a precisão factual em respostas a perguntas com uso intensivo de conhecimento enfrenta um dilema no design de recompensa. Recompensas no nível da resposta fornecem apenas uma supervisão grosseira e não conseguem distinguir afirmações corretas de incorretas dentro de um traçado de raciocínio. Alternativas no nível da sentença oferecem um feedback mais granular, mas geralmente dependem de verificadores NLI, juízes LLM ou pipelines de verificação de conhecimento que são caros para implantar na escala do RL e frequentemente não confiáveis para fatos sobre entidades raras, onde sinais de recompensa precisos são especialmente importantes. Propomos o CorVer (Corpus Verify), uma recompensa de processo leve e pronta para plug-in, que substitui verificadores neurais por um sinal baseado em corpus derivado de estatísticas de co-ocorrência da Wikipédia. O CorVer atribui crédito no nível da sentença e o mapeia para vantagens no nível do token por meio de um alinhamento simples, exigindo apenas um extrator de 0,5B e uma única consulta ao corpus por sentença. Em 30 células (modelo, benchmark) abrangendo seis modelos ajustados por instrução (3B a 14B) e cinco benchmarks de QA, o CorVer melhora em relação à linha de base bruta para todas as células, com um ganho médio de +4,1 pp no TriviaQA. Ele também supera quatro linhas de base de verificador neural em 18 de 20 células sob suas configurações viáveis, enquanto treina 4,8 a 8,4 vezes mais rápido.

English

Applying reinforcement learning to improve factual accuracy in knowledge-intensive question answering faces a reward design dilemma. Response-level rewards provide only coarse supervision and cannot distinguish correct from incorrect statements within a reasoning trace. Sentence-level alternatives offer finer-grained feedback, but typically rely on NLI verifiers, LLM judges, or knowledge-verification pipelines that are expensive to deploy at RL scale and often unreliable for rare-entity facts, where accurate reward signals are especially important. We propose CorVer (Corpus Verify), a lightweight, plug-in-ready process reward that replaces neural verifiers with a corpus-grounded signal derived from Wikipedia co-occurrence statistics. CorVer assigns sentence-level credit and maps it to token-level advantages via a simple alignment, requiring only a 0.5B extractor and a single corpus lookup per sentence. Across 30 (model, benchmark) cells spanning six instruction-tuned models (3B to 14B) and five QA benchmarks, CorVer improves over the raw baseline for every cell, with an average TriviaQA gain of +4.1 pp. It also outperforms four neural-verifier baselines in 18 of 20 cells under their feasible configurations, while training 4.8 to 8.4x faster.