言語モデルの汎用推論のための結合変分強化学習
Coupled Variational Reinforcement Learning for Language Model General Reasoning
December 14, 2025
著者: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
cs.AI
要旨
強化学習は言語モデルの推論において目覚ましい進展を遂げているが、検証可能な報酬を必要とするという制約がある。最近の検証器不要の強化学習手法は、参照回答を生成する大規模言語モデルの内在的な確率を報酬信号として利用することでこの限界に対処している。しかし、これらの手法では一般に問題文のみを条件とした推論トレースをサンプリングする。この設計は推論トレースのサンプリングと回答情報を分離してしまうため、非効率な探索やトレースと最終回答の不整合を引き起こす。本論文では、変分推論と強化学習を、事前分布と事後分布をハイブリッドサンプリング戦略により結合することで橋渡しする **Coupled Variational Reinforcement Learning** (CoVRL) を提案する。これら2つの分布を統合した複合分布を構築・最適化することで、CoVRLは強固な思考-回答の一貫性を保ちつつ効率的な探索を可能にする。数学的推論および一般推論のベンチマークにおける大規模な実験により、CoVRLがベースモデルよりも12.4%性能を向上させ、強力な最新の検証器不要強化学習ベースラインに対してもさらに2.3%の改善を達成することを示し、言語モデルの一般的な推論能力を高めるための原理に基づいた枠組みを提供する。
English
While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.