시각적 추론을 위한 잠재적 사고 연쇄
Latent Chain-of-Thought for Visual Reasoning
October 27, 2025
저자: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI
초록
체인 오브 쏘트(CoT) 추론은 대규모 시각-언어 모델(LVLM)의 해석 가능성과 신뢰성을 향상시키는 데 핵심적입니다. 그러나 SFT, PPO, GRPO와 같은 기존 훈련 알고리즘은 보이지 않는 추론 과제에서 일반화 성능이 떨어질 수 있으며 편향된 보상 모델에 크게 의존합니다. 이러한 문제를 해결하기 위해 우리는 LVLM의 추론을 사후 추론 문제로 재정의하고 변분 추론을 기반으로 한 확장 가능한 훈련 알고리즘을 제안합니다. 다양성 추구 강화 학습 알고리즘을 활용하여, 우리는 결정론적 샘플링의 한계를 극복하고 보상 해킹을 방지하는 다양한 고가능도 잠재 CoT를 장려하는 토큰 수준 학습 신호를 위한 새로운 희소 보상 함수를 도입합니다. 추가적으로 베이지안 추론 확장 전략을 구현하여 Best-of-N 및 빔 서치와 같은 고비용 방법을 한계가능도로 대체하여 최적의 근거와 답변을 효율적으로 순위 매깁니다. 우리는 제안된 방법이 효과성, 일반화 성능, 해석 가능성 측면에서 7가지 추론 벤치마크에서 최신 LVLM 성능을 향상시킴을 실증적으로 입증합니다.
English
Chain-of-thought (CoT) reasoning is critical for improving the
interpretability and reliability of Large Vision-Language Models (LVLMs).
However, existing training algorithms such as SFT, PPO, and GRPO may not
generalize well across unseen reasoning tasks and heavily rely on a biased
reward model. To address this challenge, we reformulate reasoning in LVLMs as
posterior inference and propose a scalable training algorithm based on
amortized variational inference. By leveraging diversity-seeking reinforcement
learning algorithms, we introduce a novel sparse reward function for
token-level learning signals that encourage diverse, high-likelihood latent
CoT, overcoming deterministic sampling limitations and avoiding reward hacking.
Additionally, we implement a Bayesian inference-scaling strategy that replaces
costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank
optimal rationales and answers. We empirically demonstrate that the proposed
method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in
terms of effectiveness, generalization, and interpretability.