Скрытая цепочка рассуждений для визуального логического вывода
Latent Chain-of-Thought for Visual Reasoning
October 27, 2025
Авторы: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI
Аннотация
Цепочка рассуждений (CoT) играет ключевую роль в повышении интерпретируемости и надежности больших визуально-языковых моделей (LVLM). Однако существующие алгоритмы обучения, такие как SFT, PPO и GRPO, могут плохо обобщаться на новые задачи логического вывода и сильно зависят от смещенной модели вознаграждения. Для решения этой проблемы мы переформулируем процесс рассуждения в LVLM как задачу апостериорного вывода и предлагаем масштабируемый алгоритм обучения на основе амортизационного вариационного вывода. Используя алгоритмы обучения с подкреплением, направленные на повышение разнообразия, мы вводим новую разреженную функцию вознаграждения для получения потактовых сигналов обучения, которые стимулируют разнообразные и правдоподобные латентные цепочки CoT, преодолевая ограничения детерминированного сэмплирования и избегая подгонки под функцию вознаграждения. Кроме того, мы реализуем стратегию масштабирования байесовского вывода, заменяя затратные методы Best-of-N и поиска по лучшим вариантам (Beam Search) на маргинальное правдоподобие для эффективного ранжирования оптимальных обоснований и ответов. Эмпирически мы демонстрируем, что предложенный метод улучшает современные LVLM по семи тестовым наборам для оценки логического вывода с точки зрения эффективности, способности к обобщению и интерпретируемости.
English
Chain-of-thought (CoT) reasoning is critical for improving the
interpretability and reliability of Large Vision-Language Models (LVLMs).
However, existing training algorithms such as SFT, PPO, and GRPO may not
generalize well across unseen reasoning tasks and heavily rely on a biased
reward model. To address this challenge, we reformulate reasoning in LVLMs as
posterior inference and propose a scalable training algorithm based on
amortized variational inference. By leveraging diversity-seeking reinforcement
learning algorithms, we introduce a novel sparse reward function for
token-level learning signals that encourage diverse, high-likelihood latent
CoT, overcoming deterministic sampling limitations and avoiding reward hacking.
Additionally, we implement a Bayesian inference-scaling strategy that replaces
costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank
optimal rationales and answers. We empirically demonstrate that the proposed
method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in
terms of effectiveness, generalization, and interpretability.