Latente Gedankenketten für visuelles Schließen

papers.abstract

Chain-of-Thought (CoT)-Reasoning ist entscheidend, um die Interpretierbarkeit und Zuverlässigkeit großer visuell-sprachlicher Modelle (LVLMs) zu verbessern. Allerdings generalisieren bestehende Trainingsalgorithmen wie SFT, PPO und GRPO möglicherweise nicht gut auf ungesehene Reasoning-Aufgaben und sind stark von einem verzerrten Belohnungsmodell abhängig. Um diese Herausforderung zu bewältigen, formulieren wir Reasoning in LVLMs als posteriori-Inferenz neu und schlagen einen skalierbaren Trainingsalgorithmus auf Basis amortisierter variationaler Inferenz vor. Durch die Nutzung diversitätsorientierter Reinforcement-Learning-Algorithmen führen wir eine neuartige spärliche Belohnungsfunktion für Token-basierte Lernsignale ein, die vielfältige, wahrscheinliche latente CoT fördert. Dies überwindet die Grenzen deterministischen Samplings und vermeidet Reward Hacking. Zusätzlich implementieren wir eine Bayes'sche Inferenz-Skalierungsstrategie, die aufwändige Best-of-N- und Beam-Search-Verfahren durch eine marginale Likelihood ersetzt, um optimale Rationale und Antworten effizient zu bewerten. Empirisch zeigen wir, dass die vorgeschlagene Methode state-of-the-art LVLMs auf sieben Reasoning-Benchmarks hinsichtlich Effektivität, Generalisierungsfähigkeit und Interpretierbarkeit verbessert.

English

Chain-of-thought (CoT) reasoning is critical for improving the interpretability and reliability of Large Vision-Language Models (LVLMs). However, existing training algorithms such as SFT, PPO, and GRPO may not generalize well across unseen reasoning tasks and heavily rely on a biased reward model. To address this challenge, we reformulate reasoning in LVLMs as posterior inference and propose a scalable training algorithm based on amortized variational inference. By leveraging diversity-seeking reinforcement learning algorithms, we introduce a novel sparse reward function for token-level learning signals that encourage diverse, high-likelihood latent CoT, overcoming deterministic sampling limitations and avoiding reward hacking. Additionally, we implement a Bayesian inference-scaling strategy that replaces costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank optimal rationales and answers. We empirically demonstrate that the proposed method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in terms of effectiveness, generalization, and interpretability.

Latente Gedankenketten für visuelles Schließen

Latent Chain-of-Thought for Visual Reasoning

papers.abstract

Support