ChatPaper.aiChatPaper

Gekoppelde Variationale Versterkingsleren voor Algemeen Redeneren in Taalmodellen

Coupled Variational Reinforcement Learning for Language Model General Reasoning

December 14, 2025
Auteurs: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
cs.AI

Samenvatting

Hoewel reinforcement learning indrukwekkende vooruitgang heeft geboekt bij het redeneren met taalmodel(len), wordt het beperkt door de vereiste van verifieerbare beloningen. Recente verifieerder-vrije RL-methoden pakken deze beperking aan door de intrinsieke waarschijnlijkheden dat LLM's referentieantwoorden genereren als beloningssignalen te gebruiken. Deze benaderingen nemen echter doorgaans redeneersporen waar die alleen op de vraag zijn geconditioneerd. Dit ontwerp ontkoppelt de bemonstering van redeneersporen van antwoordinformatie, wat leidt tot inefficiënte verkenning en incoherentie tussen sporen en finale antwoorden. In dit artikel stellen we \b{Coupled Variational Reinforcement Learning} (CoVRL) voor, dat variational inference en reinforcement learning verbindt door prior- en posteriorverdelingen te koppelen via een hybride bemonsteringsstrategie. Door een samengestelde verdeling te construeren en optimaliseren die deze twee verdelingen integreert, stelt CoVRL efficiënte verkenning mogelijk terwijl een sterke coherentie tussen gedachte en antwoord behouden blijft. Uitgebreide experimenten op wiskundige en algemene redeneerbenchmarks tonen aan dat CoVRL de prestaties met 12,4% verbetert ten opzichte van het basismodel en een extra verbetering van 2,3% bereikt ten opzichte van sterke, state-of-the-art verifieerder-vrije RL-baselines, waarmee het een principieel kader biedt voor het verbeteren van de algemene redeneercapaciteiten van taalmodel(len).
English
While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.
PDF22December 31, 2025