Variationeel Redeneren voor Taalmodellen
Variational Reasoning for Language Models
September 26, 2025
Auteurs: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
cs.AI
Samenvatting
We introduceren een variatief redeneerkader voor taalmodelen dat denksporen behandelt als latente variabelen en deze optimaliseert via variatief inferentie. Uitgaande van de evidence lower bound (ELBO) breiden we deze uit naar een multi-spoor doelstelling voor strakkere grenzen en stellen we een forward-KL formulering voor die de training van de variatieve posterior stabiliseert. We laten verder zien dat rejection sampling finetuning en binary-reward RL, inclusief GRPO, geïnterpreteerd kunnen worden als lokale forward-KL doelstellingen, waarbij een impliciete weging door modelnauwkeurigheid voortvloeit uit de afleiding en een voorheen onopgemerkte bias richting eenvoudigere vragen onthult. We valideren onze methode empirisch op de Qwen 2.5 en Qwen 3 modelfamilies over een breed scala aan redeneertaken. Over het algemeen biedt ons werk een principieel probabilistisch perspectief dat variatief inferentie verenigt met RL-stijl methoden en stabiele doelstellingen oplevert voor het verbeteren van het redeneervermogen van taalmodelen. Onze code is beschikbaar op https://github.com/sail-sg/variational-reasoning.
English
We introduce a variational reasoning framework for language models that
treats thinking traces as latent variables and optimizes them through
variational inference. Starting from the evidence lower bound (ELBO), we extend
it to a multi-trace objective for tighter bounds and propose a forward-KL
formulation that stabilizes the training of the variational posterior. We
further show that rejection sampling finetuning and binary-reward RL, including
GRPO, can be interpreted as local forward-KL objectives, where an implicit
weighting by model accuracy naturally arises from the derivation and reveals a
previously unnoticed bias toward easier questions. We empirically validate our
method on the Qwen 2.5 and Qwen 3 model families across a wide range of
reasoning tasks. Overall, our work provides a principled probabilistic
perspective that unifies variational inference with RL-style methods and yields
stable objectives for improving the reasoning ability of language models. Our
code is available at https://github.com/sail-sg/variational-reasoning.