Chaîne de Pensée Latente pour le Raisonnement Visuel
Latent Chain-of-Thought for Visual Reasoning
October 27, 2025
papers.authors: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI
papers.abstract
Le raisonnement par chaîne de pensée (CoT) est essentiel pour améliorer l'interprétabilité et la fiabilité des grands modèles vision-langage (LVLM). Cependant, les algorithmes d'entraînement existants tels que SFT, PPO et GRPO peuvent mal généraliser sur des tâches de raisonnement non vues et dépendent fortement d'un modèle de récompense biaisé. Pour relever ce défi, nous reformulons le raisonnement dans les LVLM comme un problème d'inférence a posteriori et proposons un algorithme d'entraînement scalable basé sur l'inférence variationnelle amortie. En exploitant des algorithmes d'apprentissage par renforcement recherchant la diversité, nous introduisons une nouvelle fonction de récompense éparse pour les signaux d'apprentissage au niveau token qui encourage des CoT latents diversifiés et à forte vraisemblance, surmontant les limitations de l'échantillonnage déterministe et évitant le détournement de récompense. De plus, nous mettons en œuvre une stratégie d'inférence bayésienne scalable qui remplace les coûteuses méthodes Best-of-N et Beam Search par une vraisemblance marginale pour classer efficacement les rationalités et réponses optimales. Nous démontrons empiriquement que la méthode proposée améliore les LVLM de pointe sur sept benchmarks de raisonnement, en termes d'efficacité, de généralisation et d'interprétabilité.
English
Chain-of-thought (CoT) reasoning is critical for improving the
interpretability and reliability of Large Vision-Language Models (LVLMs).
However, existing training algorithms such as SFT, PPO, and GRPO may not
generalize well across unseen reasoning tasks and heavily rely on a biased
reward model. To address this challenge, we reformulate reasoning in LVLMs as
posterior inference and propose a scalable training algorithm based on
amortized variational inference. By leveraging diversity-seeking reinforcement
learning algorithms, we introduce a novel sparse reward function for
token-level learning signals that encourage diverse, high-likelihood latent
CoT, overcoming deterministic sampling limitations and avoiding reward hacking.
Additionally, we implement a Bayesian inference-scaling strategy that replaces
costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank
optimal rationales and answers. We empirically demonstrate that the proposed
method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in
terms of effectiveness, generalization, and interpretability.