ChatPaper.aiChatPaper

Apprentissage par Renforcement Variationnel Couplé pour le Raisonnement Général des Modèles de Langage

Coupled Variational Reinforcement Learning for Language Model General Reasoning

December 14, 2025
papers.authors: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
cs.AI

papers.abstract

Si l'apprentissage par renforcement a réalisé des progrès impressionnants dans le raisonnement des modèles de langage, il reste contraint par la nécessité de récompenses vérifiables. Les méthodes récentes de RL sans vérificateur abordent cette limitation en utilisant les probabilités intrinsèques des LLMs pour générer des réponses de référence comme signaux de récompense. Cependant, ces approches échantillonnent généralement des traces de raisonnement conditionnées uniquement sur la question. Cette conception découple l'échantillonnage des traces de raisonnement des informations de réponse, conduisant à une exploration inefficace et à une incohérence entre les traces et les réponses finales. Dans cet article, nous proposons \b{Coupled Variational Reinforcement Learning} (CoVRL), qui relie l'inférence variationnelle et l'apprentissage par renforcement en couplant des distributions a priori et a posteriori grâce à une stratégie d'échantillonnage hybride. En construisant et en optimisant une distribution composite qui intègre ces deux distributions, CoVRL permet une exploration efficace tout en préservant une forte cohérence pensée-réponse. Des expériences approfondies sur des benchmarks de raisonnement mathématique et général montrent que CoVRL améliore les performances de 12,4 % par rapport au modèle de base et obtient une amélioration supplémentaire de 2,3 % par rapport aux solides méthodes de référence de RL sans vérificateur, fournissant un cadre princié pour améliorer les capacités de raisonnement général des modèles de langage.
English
While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.
PDF22December 20, 2025