Latente Gedankenketten für visuelles Schließen
Latent Chain-of-Thought for Visual Reasoning
October 27, 2025
papers.authors: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI
papers.abstract
Chain-of-Thought (CoT)-Reasoning ist entscheidend, um die Interpretierbarkeit und Zuverlässigkeit großer visuell-sprachlicher Modelle (LVLMs) zu verbessern. Allerdings generalisieren bestehende Trainingsalgorithmen wie SFT, PPO und GRPO möglicherweise nicht gut auf ungesehene Reasoning-Aufgaben und sind stark von einem verzerrten Belohnungsmodell abhängig. Um diese Herausforderung zu bewältigen, formulieren wir Reasoning in LVLMs als posteriori-Inferenz neu und schlagen einen skalierbaren Trainingsalgorithmus auf Basis amortisierter variationaler Inferenz vor. Durch die Nutzung diversitätsorientierter Reinforcement-Learning-Algorithmen führen wir eine neuartige spärliche Belohnungsfunktion für Token-basierte Lernsignale ein, die vielfältige, wahrscheinliche latente CoT fördert. Dies überwindet die Grenzen deterministischen Samplings und vermeidet Reward Hacking. Zusätzlich implementieren wir eine Bayes'sche Inferenz-Skalierungsstrategie, die aufwändige Best-of-N- und Beam-Search-Verfahren durch eine marginale Likelihood ersetzt, um optimale Rationale und Antworten effizient zu bewerten. Empirisch zeigen wir, dass die vorgeschlagene Methode state-of-the-art LVLMs auf sieben Reasoning-Benchmarks hinsichtlich Effektivität, Generalisierungsfähigkeit und Interpretierbarkeit verbessert.
English
Chain-of-thought (CoT) reasoning is critical for improving the
interpretability and reliability of Large Vision-Language Models (LVLMs).
However, existing training algorithms such as SFT, PPO, and GRPO may not
generalize well across unseen reasoning tasks and heavily rely on a biased
reward model. To address this challenge, we reformulate reasoning in LVLMs as
posterior inference and propose a scalable training algorithm based on
amortized variational inference. By leveraging diversity-seeking reinforcement
learning algorithms, we introduce a novel sparse reward function for
token-level learning signals that encourage diverse, high-likelihood latent
CoT, overcoming deterministic sampling limitations and avoiding reward hacking.
Additionally, we implement a Bayesian inference-scaling strategy that replaces
costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank
optimal rationales and answers. We empirically demonstrate that the proposed
method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in
terms of effectiveness, generalization, and interpretability.