언어 모델의 일반 추론을 위한 결합 변분 강화 학습
Coupled Variational Reinforcement Learning for Language Model General Reasoning
December 14, 2025
저자: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
cs.AI
초록
강화 학습은 언어 모델 추론 분야에서 인상적인 진전을 이루었지만, 검증 가능한 보상이 필요하다는 제약이 있습니다. 최근의 검증기 없는 RL 방법론은 LLM이 참조 답변을 생성하는 내재적 확률을 보상 신호로 활용하여 이러한 한계를 해결하고 있습니다. 그러나 이러한 접근법은 일반적으로 질문만을 조건으로 한 추론 흔적을 샘플링합니다. 이러한 설계는 추론 흔적 샘플링과 답변 정보를 분리하여 비효율적인 탐색과 흔적-최종 답변 간 비일관성을 초래합니다. 본 논문에서는 변분 추론과 강화 학습을 하이브리드 샘플링 전략을 통해 사전 분포와 사후 분포를 결합하여 연결하는 \textbf{결합 변분 강화 학습}(CoVRL)을 제안합니다. 이 두 분포를 통합한 복합 분포를 구성하고 최적화함으로써 CoVRL은 강력한 사고-답변 일관성을 유지하면서 효율적인 탐색을 가능하게 합니다. 수학적 및 일반 추론 벤치마크에서의 광범위한 실험 결과, CoVRL은 기본 모델 대비 12.4%의 성능 향상을 보였으며, 강력한 최신 검증기 없는 RL 기준선 대비 추가로 2.3%의 향상을 달성하여 언어 모델의 일반 추론 능력 향상을 위한 원칙적인 프레임워크를 제공합니다.
English
While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.