ChatPaper.aiChatPaper

Скрытая цепочка рассуждений для визуального логического вывода

Latent Chain-of-Thought for Visual Reasoning

October 27, 2025
Авторы: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI

Аннотация

Цепочка рассуждений (CoT) играет ключевую роль в повышении интерпретируемости и надежности больших визуально-языковых моделей (LVLM). Однако существующие алгоритмы обучения, такие как SFT, PPO и GRPO, могут плохо обобщаться на новые задачи логического вывода и сильно зависят от смещенной модели вознаграждения. Для решения этой проблемы мы переформулируем процесс рассуждения в LVLM как задачу апостериорного вывода и предлагаем масштабируемый алгоритм обучения на основе амортизационного вариационного вывода. Используя алгоритмы обучения с подкреплением, направленные на повышение разнообразия, мы вводим новую разреженную функцию вознаграждения для получения потактовых сигналов обучения, которые стимулируют разнообразные и правдоподобные латентные цепочки CoT, преодолевая ограничения детерминированного сэмплирования и избегая подгонки под функцию вознаграждения. Кроме того, мы реализуем стратегию масштабирования байесовского вывода, заменяя затратные методы Best-of-N и поиска по лучшим вариантам (Beam Search) на маргинальное правдоподобие для эффективного ранжирования оптимальных обоснований и ответов. Эмпирически мы демонстрируем, что предложенный метод улучшает современные LVLM по семи тестовым наборам для оценки логического вывода с точки зрения эффективности, способности к обобщению и интерпретируемости.
English
Chain-of-thought (CoT) reasoning is critical for improving the interpretability and reliability of Large Vision-Language Models (LVLMs). However, existing training algorithms such as SFT, PPO, and GRPO may not generalize well across unseen reasoning tasks and heavily rely on a biased reward model. To address this challenge, we reformulate reasoning in LVLMs as posterior inference and propose a scalable training algorithm based on amortized variational inference. By leveraging diversity-seeking reinforcement learning algorithms, we introduce a novel sparse reward function for token-level learning signals that encourage diverse, high-likelihood latent CoT, overcoming deterministic sampling limitations and avoiding reward hacking. Additionally, we implement a Bayesian inference-scaling strategy that replaces costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank optimal rationales and answers. We empirically demonstrate that the proposed method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in terms of effectiveness, generalization, and interpretability.
PDF91December 1, 2025