ChatPaper.aiChatPaper

Связанное вариационное обучение с подкреплением для обобщённого логического вывода языковых моделей

Coupled Variational Reinforcement Learning for Language Model General Reasoning

December 14, 2025
Авторы: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
cs.AI

Аннотация

Хотя обучение с подкреплением достигло значительного прогресса в области логического вывода языковых моделей, оно ограничено требованием верифицируемых вознаграждений. Недавние методы RL без верификатора устраняют это ограничение, используя внутренние вероятности генерации эталонных ответов большими языковыми моделями в качестве сигналов вознаграждения. Однако эти подходы обычно сэмплируют траектории рассуждений, обусловленные только вопросом. Такая конструкция отделяет сэмплирование траекторий рассуждений от информации об ответе, что приводит к неэффективному исследованию и несогласованности между траекториями и конечными ответами. В данной статье мы предлагаем **Связанное Вариационное Обучение с Подкреплением** (CoVRL), которое объединяет вариационный вывод и обучение с подкреплением путем связывания априорного и апостериорного распределений с помощью гибридной стратегии сэмплирования. Путем построения и оптимизации композитного распределения, интегрирующего эти два распределения, CoVRL обеспечивает эффективное исследование, сохраняя при этом сильную согласованность между ходом мыслей и ответом. Многочисленные эксперименты на эталонах математических и общих рассуждений показывают, что CoVRL улучшает производительность на 12.4% по сравнению с базовой моделью и достигает дополнительного улучшения на 2.3% по сравнению с сильными современными базовыми методами RL без верификатора, предоставляя принципиальную основу для расширения общих логических возможностей языковых моделей.
English
While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \b{Coupled Variational Reinforcement Learning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.
PDF22December 20, 2025