ChatPaper.aiChatPaper

Aprendizaje por Refuerzo Variacional Acoplado para el Razonamiento General de Modelos de Lenguaje

Coupled Variational Reinforcement Learning for Language Model General Reasoning

December 14, 2025
Autores: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
cs.AI

Resumen

Si bien el aprendizaje por refuerzo ha logrado avances impresionantes en el razonamiento de modelos de lenguaje, se ve limitado por el requisito de recompensas verificables. Métodos recientes de RL libres de verificador abordan esta limitación utilizando las probabilidades intrínsecas de que los LLM generen respuestas de referencia como señales de recompensa. Sin embargo, estos enfoques normalmente muestran trazas de razonamiento condicionadas únicamente a la pregunta. Este diseño desacopla el muestreo de trazas de razonamiento de la información de la respuesta, lo que conduce a una exploración ineficiente y a una incoherencia entre las trazas y las respuestas finales. En este artículo, proponemos \b{Aprendizaje por Refuerzo Variacional Acoplado} (CoVRL), que une la inferencia variacional y el aprendizaje por refuerzo acoplando distribuciones previas y posteriores mediante una estrategia de muestreo híbrida. Al construir y optimizar una distribución compuesta que integra estas dos distribuciones, CoVRL permite una exploración eficiente mientras preserva una fuerte coherencia entre el pensamiento y la respuesta. Experimentos exhaustivos en benchmarks de razonamiento matemático y general muestran que CoVRL mejora el rendimiento en un 12.4\% respecto al modelo base y logra una mejora adicional del 2.3\% sobre sólidos baselines de RL libres de verificador de última generación, proporcionando un marco fundamentado para mejorar las capacidades de razonamiento general de los modelos de lenguaje.
English
While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.
PDF22December 20, 2025