ChatPaper.aiChatPaper

Вариационные методы рассуждений для языковых моделей

Variational Reasoning for Language Models

September 26, 2025
Авторы: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
cs.AI

Аннотация

Мы представляем вариационный фреймворк для рассуждений в языковых моделях, который рассматривает траектории мышления как латентные переменные и оптимизирует их с помощью вариационного вывода. Начиная с нижней границы доказательства (ELBO), мы расширяем её до мультитраекторного целевого функционала для получения более точных границ и предлагаем формулировку с использованием прямого расхождения Кульбака-Лейблера (forward-KL), которая стабилизирует обучение вариационного апостериорного распределения. Мы также показываем, что тонкая настройка с использованием метода отклоняющего сэмплирования и обучение с подкреплением с бинарными наградами, включая GRPO, могут быть интерпретированы как локальные целевые функции прямого KL, где неявное взвешивание по точности модели естественным образом возникает из вывода и выявляет ранее незамеченное смещение в сторону более простых вопросов. Мы эмпирически проверяем наш метод на семействах моделей Qwen 2.5 и Qwen 3 на широком спектре задач рассуждений. В целом, наша работа предлагает принципиальный вероятностный подход, который объединяет вариационный вывод с методами в стиле обучения с подкреплением и обеспечивает стабильные целевые функции для улучшения способности языковых моделей к рассуждениям. Наш код доступен по адресу https://github.com/sail-sg/variational-reasoning.
English
We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objectives, where an implicit weighting by model accuracy naturally arises from the derivation and reveals a previously unnoticed bias toward easier questions. We empirically validate our method on the Qwen 2.5 and Qwen 3 model families across a wide range of reasoning tasks. Overall, our work provides a principled probabilistic perspective that unifies variational inference with RL-style methods and yields stable objectives for improving the reasoning ability of language models. Our code is available at https://github.com/sail-sg/variational-reasoning.
PDF582September 29, 2025