Ragionamento Variazionale per Modelli Linguistici
Variational Reasoning for Language Models
September 26, 2025
Autori: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
cs.AI
Abstract
Introduciamo un framework di ragionamento variazionale per modelli linguistici che tratta le tracce di pensiero come variabili latenti e le ottimizza attraverso inferenza variazionale. Partendo dal limite inferiore dell'evidenza (ELBO), lo estendiamo a un obiettivo multi-traccia per ottenere limiti più stretti e proponiamo una formulazione forward-KL che stabilizza l'addestramento della posterior variazionale. Dimostriamo inoltre che il fine-tuning tramite campionamento per rifiuto e il reinforcement learning con ricompense binarie, incluso GRPO, possono essere interpretati come obiettivi locali forward-KL, dove un'implicita ponderazione basata sull'accuratezza del modello emerge naturalmente dalla derivazione e rivela un bias precedentemente non noto verso domande più facili. Validiamo empiricamente il nostro metodo sulle famiglie di modelli Qwen 2.5 e Qwen 3 su un'ampia gamma di compiti di ragionamento. Nel complesso, il nostro lavoro fornisce una prospettiva probabilistica principiata che unisce l'inferenza variazionale con metodi di tipo RL e produce obiettivi stabili per migliorare la capacità di ragionamento dei modelli linguistici. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/variational-reasoning.
English
We introduce a variational reasoning framework for language models that
treats thinking traces as latent variables and optimizes them through
variational inference. Starting from the evidence lower bound (ELBO), we extend
it to a multi-trace objective for tighter bounds and propose a forward-KL
formulation that stabilizes the training of the variational posterior. We
further show that rejection sampling finetuning and binary-reward RL, including
GRPO, can be interpreted as local forward-KL objectives, where an implicit
weighting by model accuracy naturally arises from the derivation and reveals a
previously unnoticed bias toward easier questions. We empirically validate our
method on the Qwen 2.5 and Qwen 3 model families across a wide range of
reasoning tasks. Overall, our work provides a principled probabilistic
perspective that unifies variational inference with RL-style methods and yields
stable objectives for improving the reasoning ability of language models. Our
code is available at https://github.com/sail-sg/variational-reasoning.