ChatPaper.aiChatPaper

Ragionamento Variazionale per Modelli Linguistici

Variational Reasoning for Language Models

September 26, 2025
Autori: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
cs.AI

Abstract

Introduciamo un framework di ragionamento variazionale per modelli linguistici che tratta le tracce di pensiero come variabili latenti e le ottimizza attraverso inferenza variazionale. Partendo dal limite inferiore dell'evidenza (ELBO), lo estendiamo a un obiettivo multi-traccia per ottenere limiti più stretti e proponiamo una formulazione forward-KL che stabilizza l'addestramento della posterior variazionale. Dimostriamo inoltre che il fine-tuning tramite campionamento per rifiuto e il reinforcement learning con ricompense binarie, incluso GRPO, possono essere interpretati come obiettivi locali forward-KL, dove un'implicita ponderazione basata sull'accuratezza del modello emerge naturalmente dalla derivazione e rivela un bias precedentemente non noto verso domande più facili. Validiamo empiricamente il nostro metodo sulle famiglie di modelli Qwen 2.5 e Qwen 3 su un'ampia gamma di compiti di ragionamento. Nel complesso, il nostro lavoro fornisce una prospettiva probabilistica principiata che unisce l'inferenza variazionale con metodi di tipo RL e produce obiettivi stabili per migliorare la capacità di ragionamento dei modelli linguistici. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/variational-reasoning.
English
We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objectives, where an implicit weighting by model accuracy naturally arises from the derivation and reveals a previously unnoticed bias toward easier questions. We empirically validate our method on the Qwen 2.5 and Qwen 3 model families across a wide range of reasoning tasks. Overall, our work provides a principled probabilistic perspective that unifies variational inference with RL-style methods and yields stable objectives for improving the reasoning ability of language models. Our code is available at https://github.com/sail-sg/variational-reasoning.
PDF682September 29, 2025