ChatPaper.aiChatPaper

Raciocínio Variacional para Modelos de Linguagem

Variational Reasoning for Language Models

September 26, 2025
Autores: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
cs.AI

Resumo

Apresentamos um framework de raciocínio variacional para modelos de linguagem que trata traços de pensamento como variáveis latentes e os otimiza por meio de inferência variacional. Partindo do limite inferior de evidência (ELBO), estendemo-lo para um objetivo de múltiplos traços para limites mais apertados e propomos uma formulação de KL direta que estabiliza o treinamento da posterior variacional. Além disso, mostramos que o ajuste fino por amostragem de rejeição e o RL com recompensa binária, incluindo GRPO, podem ser interpretados como objetivos locais de KL direta, onde uma ponderação implícita pela precisão do modelo surge naturalmente da derivação e revela um viés previamente não notado em direção a perguntas mais fáceis. Validamos empiricamente nosso método nas famílias de modelos Qwen 2.5 e Qwen 3 em uma ampla gama de tarefas de raciocínio. No geral, nosso trabalho oferece uma perspectiva probabilística fundamentada que unifica a inferência variacional com métodos de estilo RL e produz objetivos estáveis para melhorar a capacidade de raciocínio de modelos de linguagem. Nosso código está disponível em https://github.com/sail-sg/variational-reasoning.
English
We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objectives, where an implicit weighting by model accuracy naturally arises from the derivation and reveals a previously unnoticed bias toward easier questions. We empirically validate our method on the Qwen 2.5 and Qwen 3 model families across a wide range of reasoning tasks. Overall, our work provides a principled probabilistic perspective that unifies variational inference with RL-style methods and yields stable objectives for improving the reasoning ability of language models. Our code is available at https://github.com/sail-sg/variational-reasoning.
PDF682September 29, 2025