Apprendimento per Rinforzo Variazionale Accoppiato per il Ragionamento Generale dei Modelli Linguistici
Coupled Variational Reinforcement Learning for Language Model General Reasoning
December 14, 2025
Autori: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
cs.AI
Abstract
Sebbene l'apprendimento per rinforzo abbia ottenuto progressi impressionanti nel ragionamento dei modelli linguistici, è vincolato dalla necessità di ricompense verificabili. Recenti metodi RL senza verificatore affrontano questa limitazione utilizzando le probabilità intrinseche degli LLM di generare risposte di riferimento come segnali di ricompensa. Tuttavia, questi approcci tipicamente campionano tracce di ragionamento condizionate solo alla domanda. Questo design disaccoppia il campionamento delle tracce di ragionamento dalle informazioni della risposta, portando a un'esplorazione inefficiente e a un'incongruenza tra le tracce e le risposte finali. In questo articolo, proponiamo \b{Coupled Variational Reinforcement Learning} (CoVRL), che collega l'inferenza variazionale e l'apprendimento per rinforzo accoppiando le distribuzioni a priori e a posteriori attraverso una strategia di campionamento ibrida. Costruendo e ottimizzando una distribuzione composita che integra queste due distribuzioni, CoVRL consente un'esplorazione efficiente preservando al contempo una forte coerenza tra pensiero e risposta. Esperimenti estesi su benchmark di ragionamento matematico e generale mostrano che CoVRL migliora le prestazioni del 12,4% rispetto al modello base e ottiene un ulteriore miglioramento del 2,3% rispetto a solidi baseline RL senza verificatore allo stato dell'arte, fornendo un framework principiato per potenziare le capacità di ragionamento generale dei modelli linguistici.
English
While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.