Aprendizado por Reforço Variacional Acoplado para Raciocínio Generalizado em Modelos de Linguagem

Resumo

Embora a aprendizagem por reforço tenha alcançado progressos impressionantes no raciocínio de modelos de linguagem, ela é limitada pela necessidade de recompensas verificáveis. Métodos recentes de RL sem verificador abordam esta limitação utilizando as probabilidades intrínsecas dos LLMs gerarem respostas de referência como sinais de recompensa. No entanto, essas abordagens geralmente amostram trajetórias de raciocínio condicionadas apenas à pergunta. Este projeto desacopla a amostragem da trajetória de raciocínio da informação da resposta, levando a uma exploração ineficiente e a uma incoerência entre as trajetórias e as respostas finais. Neste artigo, propomos a **Aprendizagem por Reforço Variacional Acoplada** (CoVRL), que une a inferência variacional e a aprendizagem por reforço através do acoplamento de distribuições a priori e a posteriori por meio de uma estratégia de amostragem híbrida. Ao construir e otimizar uma distribuição composta que integra essas duas distribuições, o CoVRL permite uma exploração eficiente, preservando uma forte coerência entre o pensamento e a resposta. Experimentos extensos em benchmarks de raciocínio matemático e geral mostram que o CoVRL melhora o desempenho em 12,4% em relação ao modelo base e alcança uma melhoria adicional de 2,3% sobre fortes linhas de base de RL sem verificador state-of-the-art, fornecendo uma estrutura fundamentada para aprimorar as capacidades gerais de raciocínio dos modelos de linguagem.

English

While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.

Aprendizado por Reforço Variacional Acoplado para Raciocínio Generalizado em Modelos de Linguagem

Coupled Variational Reinforcement Learning for Language Model General Reasoning

Resumo

Support