Gekoppeltes Variational Reinforcement Learning für Allgemeines Schließen in Sprachmodellen
Coupled Variational Reinforcement Learning for Language Model General Reasoning
December 14, 2025
papers.authors: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
cs.AI
papers.abstract
Obwohl Reinforcement Learning beeindruckende Fortschritte im Sprachmodell-Rationalität erzielt hat, ist es durch die Anforderung verifizierbarer Belohnungen eingeschränkt. Neuere verifiziererfreie RL-Methoden adressieren diese Einschränkung, indem sie die intrinsischen Wahrscheinlichkeiten von LLMs für die Generierung von Referenzantworten als Belohnungssignale nutzen. Diese Ansätze sampeln jedoch typischerweise Reasoning-Traces nur auf Basis der Frage. Dieses Design entkoppelt die Reasoning-Trace-Sammlung von der Antwortinformation, was zu ineffizienter Exploration und Inkohärenz zwischen Traces und finalen Antworten führt. In diesem Paper schlagen wir \b{Coupled Variational Reinforcement Learning} (CoVRL) vor, das variationale Inferenz und Reinforcement Learning verbindet, indem es Prior- und Posterior-Verteilungen durch eine hybride Sampling-Strategie koppelt. Durch die Konstruktion und Optimierung einer zusammengesetzten Verteilung, die diese beiden Verteilungen integriert, ermöglicht CoVRL effiziente Exploration bei gleichzeitiger Bewahrung starker Gedanken-Antwort-Kohärenz. Umfangreiche Experimente auf mathematischen und allgemeinen Reasoning-Benchmarks zeigen, dass CoVRL die Leistung um 12,4\% gegenüber dem Basismodell steigert und eine zusätzliche Verbesserung von 2,3\% gegenüber starken state-of-the-art verifiziererfreien RL-Baselines erzielt, wodurch ein prinzipieller Rahmen zur Verbesserung der allgemeinen Reasoning-Fähigkeiten von Sprachmodellen bereitgestellt wird.
English
While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.