ChatPaper.aiChatPaper

Raisonnement variationnel pour les modèles de langage

Variational Reasoning for Language Models

September 26, 2025
papers.authors: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
cs.AI

papers.abstract

Nous introduisons un cadre de raisonnement variationnel pour les modèles de langage qui traite les traces de pensée comme des variables latentes et les optimise par inférence variationnelle. En partant de la borne inférieure de l'évidence (ELBO), nous l'étendons à un objectif multi-traces pour des bornes plus serrées et proposons une formulation de divergence de Kullback-Leibler (KL) avant qui stabilise l'entraînement de la postérieure variationnelle. Nous montrons en outre que le réglage par échantillonnage de rejet et l'apprentissage par renforcement à récompense binaire, incluant GRPO, peuvent être interprétés comme des objectifs locaux de KL avant, où une pondération implicite par la précision du modèle émerge naturellement de la dérivation et révèle un biais précédemment non détecté en faveur des questions plus faciles. Nous validons empiriquement notre méthode sur les familles de modèles Qwen 2.5 et Qwen 3 à travers une large gamme de tâches de raisonnement. Globalement, notre travail offre une perspective probabiliste rigoureuse qui unifie l'inférence variationnelle avec des méthodes de style apprentissage par renforcement et produit des objectifs stables pour améliorer la capacité de raisonnement des modèles de langage. Notre code est disponible à l'adresse https://github.com/sail-sg/variational-reasoning.
English
We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objectives, where an implicit weighting by model accuracy naturally arises from the derivation and reveals a previously unnoticed bias toward easier questions. We empirically validate our method on the Qwen 2.5 and Qwen 3 model families across a wide range of reasoning tasks. Overall, our work provides a principled probabilistic perspective that unifies variational inference with RL-style methods and yields stable objectives for improving the reasoning ability of language models. Our code is available at https://github.com/sail-sg/variational-reasoning.
PDF582September 29, 2025