Variationales Schließen für Sprachmodelle
Variational Reasoning for Language Models
September 26, 2025
papers.authors: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
cs.AI
papers.abstract
Wir stellen ein variationsbasiertes Rahmenwerk für Sprachmodelle vor, das Denkspuren als latente Variablen behandelt und sie durch Variationsinferenz optimiert. Ausgehend von der unteren Schranke der Evidenz (ELBO) erweitern wir diese zu einem Multi-Spur-Ziel, um engere Schranken zu erreichen, und schlagen eine Forward-KL-Formulierung vor, die das Training des variationsbasierten Posterior stabilisiert. Wir zeigen weiterhin, dass Feinabstimmung durch Ablehnungsstichproben und Reinforcement Learning mit binären Belohnungen, einschließlich GRPO, als lokale Forward-KL-Ziele interpretiert werden können, wobei eine implizite Gewichtung durch die Modellgenauigkeit aus der Herleitung resultiert und eine bisher unbemerkte Verzerrung hin zu einfacheren Fragen offenbart. Wir validieren unsere Methode empirisch an den Modellfamilien Qwen 2.5 und Qwen 3 über eine breite Palette von Denkaufgaben. Insgesamt bietet unsere Arbeit eine prinzipielle probabilistische Perspektive, die Variationsinferenz mit RL-ähnlichen Methoden vereint und stabile Ziele zur Verbesserung der Denkfähigkeit von Sprachmodellen liefert. Unser Code ist unter https://github.com/sail-sg/variational-reasoning verfügbar.
English
We introduce a variational reasoning framework for language models that
treats thinking traces as latent variables and optimizes them through
variational inference. Starting from the evidence lower bound (ELBO), we extend
it to a multi-trace objective for tighter bounds and propose a forward-KL
formulation that stabilizes the training of the variational posterior. We
further show that rejection sampling finetuning and binary-reward RL, including
GRPO, can be interpreted as local forward-KL objectives, where an implicit
weighting by model accuracy naturally arises from the derivation and reveals a
previously unnoticed bias toward easier questions. We empirically validate our
method on the Qwen 2.5 and Qwen 3 model families across a wide range of
reasoning tasks. Overall, our work provides a principled probabilistic
perspective that unifies variational inference with RL-style methods and yields
stable objectives for improving the reasoning ability of language models. Our
code is available at https://github.com/sail-sg/variational-reasoning.