Razonamiento Variacional para Modelos de Lenguaje
Variational Reasoning for Language Models
September 26, 2025
Autores: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
cs.AI
Resumen
Introducimos un marco de razonamiento variacional para modelos de lenguaje que trata las trazas de pensamiento como variables latentes y las optimiza mediante inferencia variacional. Partiendo del límite inferior de la evidencia (ELBO, por sus siglas en inglés), lo extendemos a un objetivo de múltiples trazas para obtener límites más ajustados y proponemos una formulación de KL directa que estabiliza el entrenamiento de la posterior variacional. Además, demostramos que el ajuste fino por muestreo de rechazo y el aprendizaje por refuerzo con recompensas binarias, incluyendo GRPO, pueden interpretarse como objetivos locales de KL directa, donde surge de manera natural una ponderación implícita basada en la precisión del modelo, revelando un sesgo previamente inadvertido hacia preguntas más fáciles. Validamos empíricamente nuestro método en las familias de modelos Qwen 2.5 y Qwen 3 en una amplia gama de tareas de razonamiento. En general, nuestro trabajo proporciona una perspectiva probabilística fundamentada que unifica la inferencia variacional con métodos de estilo RL y produce objetivos estables para mejorar la capacidad de razonamiento de los modelos de lenguaje. Nuestro código está disponible en https://github.com/sail-sg/variational-reasoning.
English
We introduce a variational reasoning framework for language models that
treats thinking traces as latent variables and optimizes them through
variational inference. Starting from the evidence lower bound (ELBO), we extend
it to a multi-trace objective for tighter bounds and propose a forward-KL
formulation that stabilizes the training of the variational posterior. We
further show that rejection sampling finetuning and binary-reward RL, including
GRPO, can be interpreted as local forward-KL objectives, where an implicit
weighting by model accuracy naturally arises from the derivation and reveals a
previously unnoticed bias toward easier questions. We empirically validate our
method on the Qwen 2.5 and Qwen 3 model families across a wide range of
reasoning tasks. Overall, our work provides a principled probabilistic
perspective that unifies variational inference with RL-style methods and yields
stable objectives for improving the reasoning ability of language models. Our
code is available at https://github.com/sail-sg/variational-reasoning.