Ragionamento Variazionale per Modelli Linguistici

Abstract

Introduciamo un framework di ragionamento variazionale per modelli linguistici che tratta le tracce di pensiero come variabili latenti e le ottimizza attraverso inferenza variazionale. Partendo dal limite inferiore dell'evidenza (ELBO), lo estendiamo a un obiettivo multi-traccia per ottenere limiti più stretti e proponiamo una formulazione forward-KL che stabilizza l'addestramento della posterior variazionale. Dimostriamo inoltre che il fine-tuning tramite campionamento per rifiuto e il reinforcement learning con ricompense binarie, incluso GRPO, possono essere interpretati come obiettivi locali forward-KL, dove un'implicita ponderazione basata sull'accuratezza del modello emerge naturalmente dalla derivazione e rivela un bias precedentemente non noto verso domande più facili. Validiamo empiricamente il nostro metodo sulle famiglie di modelli Qwen 2.5 e Qwen 3 su un'ampia gamma di compiti di ragionamento. Nel complesso, il nostro lavoro fornisce una prospettiva probabilistica principiata che unisce l'inferenza variazionale con metodi di tipo RL e produce obiettivi stabili per migliorare la capacità di ragionamento dei modelli linguistici. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/variational-reasoning.

English

We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objectives, where an implicit weighting by model accuracy naturally arises from the derivation and reveals a previously unnoticed bias toward easier questions. We empirically validate our method on the Qwen 2.5 and Qwen 3 model families across a wide range of reasoning tasks. Overall, our work provides a principled probabilistic perspective that unifies variational inference with RL-style methods and yields stable objectives for improving the reasoning ability of language models. Our code is available at https://github.com/sail-sg/variational-reasoning.

Ragionamento Variazionale per Modelli Linguistici

Variational Reasoning for Language Models

Abstract

Support