Variationales Schließen für Sprachmodelle

papers.abstract

Wir stellen ein variationsbasiertes Rahmenwerk für Sprachmodelle vor, das Denkspuren als latente Variablen behandelt und sie durch Variationsinferenz optimiert. Ausgehend von der unteren Schranke der Evidenz (ELBO) erweitern wir diese zu einem Multi-Spur-Ziel, um engere Schranken zu erreichen, und schlagen eine Forward-KL-Formulierung vor, die das Training des variationsbasierten Posterior stabilisiert. Wir zeigen weiterhin, dass Feinabstimmung durch Ablehnungsstichproben und Reinforcement Learning mit binären Belohnungen, einschließlich GRPO, als lokale Forward-KL-Ziele interpretiert werden können, wobei eine implizite Gewichtung durch die Modellgenauigkeit aus der Herleitung resultiert und eine bisher unbemerkte Verzerrung hin zu einfacheren Fragen offenbart. Wir validieren unsere Methode empirisch an den Modellfamilien Qwen 2.5 und Qwen 3 über eine breite Palette von Denkaufgaben. Insgesamt bietet unsere Arbeit eine prinzipielle probabilistische Perspektive, die Variationsinferenz mit RL-ähnlichen Methoden vereint und stabile Ziele zur Verbesserung der Denkfähigkeit von Sprachmodellen liefert. Unser Code ist unter https://github.com/sail-sg/variational-reasoning verfügbar.

English

We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objectives, where an implicit weighting by model accuracy naturally arises from the derivation and reveals a previously unnoticed bias toward easier questions. We empirically validate our method on the Qwen 2.5 and Qwen 3 model families across a wide range of reasoning tasks. Overall, our work provides a principled probabilistic perspective that unifies variational inference with RL-style methods and yields stable objectives for improving the reasoning ability of language models. Our code is available at https://github.com/sail-sg/variational-reasoning.

Variationales Schließen für Sprachmodelle

Variational Reasoning for Language Models

papers.abstract

Support