Récompenses vérifiables au-delà des mathématiques et du code : supervision légère de processus ancrée dans les corpus pour la réponse à des questions factuelles

Résumé

L'application de l'apprentissage par renforcement pour améliorer la précision factuelle dans les systèmes de question-réponse à forte intensité de connaissances se heurte à un dilemme de conception des récompenses. Les récompenses au niveau de la réponse ne fournissent qu'une supervision grossière et ne permettent pas de distinguer les affirmations correctes des incorrectes au sein d'une trace de raisonnement. Les alternatives au niveau de la phrase offrent un retour plus fin, mais reposent généralement sur des vérificateurs NLI, des juges LLM ou des pipelines de vérification des connaissances, qui sont coûteux à déployer à l'échelle de l'apprentissage par renforcement et souvent peu fiables pour les faits concernant des entités rares, où des signaux de récompense précis sont particulièrement importants. Nous proposons CorVer (Corpus Verify), une récompense de processus légère et prête à être intégrée, qui remplace les vérificateurs neuronaux par un signal ancré dans un corpus, dérivé des statistiques de co-occurrence de Wikipédia. CorVer attribue un crédit au niveau de la phrase et le convertit en avantages au niveau des tokens grâce à un alignement simple, ne nécessitant qu'un extracteur de 0,5 milliard de paramètres et une unique recherche dans le corpus par phrase. Sur 30 cellules (modèle, benchmark) couvrant six modèles ajustés par instructions (de 3 à 14 milliards de paramètres) et cinq benchmarks de Q/R, CorVer améliore la référence brute pour chaque cellule, avec un gain moyen de +4,1 points de pourcentage sur TriviaQA. Il surpasse également quatre références basées sur des vérificateurs neuronaux dans 18 des 20 cellules dans leurs configurations réalisables, tout en étant 4,8 à 8,4 fois plus rapide à l'entraînement.

English

Applying reinforcement learning to improve factual accuracy in knowledge-intensive question answering faces a reward design dilemma. Response-level rewards provide only coarse supervision and cannot distinguish correct from incorrect statements within a reasoning trace. Sentence-level alternatives offer finer-grained feedback, but typically rely on NLI verifiers, LLM judges, or knowledge-verification pipelines that are expensive to deploy at RL scale and often unreliable for rare-entity facts, where accurate reward signals are especially important. We propose CorVer (Corpus Verify), a lightweight, plug-in-ready process reward that replaces neural verifiers with a corpus-grounded signal derived from Wikipedia co-occurrence statistics. CorVer assigns sentence-level credit and maps it to token-level advantages via a simple alignment, requiring only a 0.5B extractor and a single corpus lookup per sentence. Across 30 (model, benchmark) cells spanning six instruction-tuned models (3B to 14B) and five QA benchmarks, CorVer improves over the raw baseline for every cell, with an average TriviaQA gain of +4.1 pp. It also outperforms four neural-verifier baselines in 18 of 20 cells under their feasible configurations, while training 4.8 to 8.4x faster.