Latente Ketendenkwijze voor Visueel Redeneren
Latent Chain-of-Thought for Visual Reasoning
October 27, 2025
Auteurs: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI
Samenvatting
Chain-of-thought (CoT) redeneren is cruciaal voor het verbeteren van de interpreteerbaarheid en betrouwbaarheid van Large Vision-Language Models (LVLMs). Bestaande trainingsalgoritmen zoals SFT, PPO en GRPO generaliseren echter mogelijk niet goed naar onzichtbare redeneertaken en zijn sterk afhankelijk van een bevooroordeeld beloningsmodel. Om deze uitdaging aan te pakken, herformuleren we redeneren in LVLMs als posterior inferentie en stellen we een schaalbaar trainingsalgoritme voor op basis van geamortiseerde variational inference. Door gebruik te maken van diversiteit-zoekende reinforcement learning-algoritmen, introduceren we een nieuwe sparse beloningsfunctie voor token-level leer-signalen die diverse, hoog-waarschijnlijke latente CoT's aanmoedigen, waardoor de beperkingen van deterministische steekproefname worden overwonnen en 'reward hacking' wordt vermeden. Daarnaast implementeren we een Bayesian inference-schaalstrategie die kostbare Best-of-N en Beam Search vervangt door een marginale likelihood om optimale redeneringen en antwoorden efficiënt te rangschikken. We tonen empirisch aan dat de voorgestelde methode de state-of-the-art LVLMs verbetert op zeven redeneerbenchmarks, wat betreft effectiviteit, generalisatie en interpreteerbaarheid.
English
Chain-of-thought (CoT) reasoning is critical for improving the
interpretability and reliability of Large Vision-Language Models (LVLMs).
However, existing training algorithms such as SFT, PPO, and GRPO may not
generalize well across unseen reasoning tasks and heavily rely on a biased
reward model. To address this challenge, we reformulate reasoning in LVLMs as
posterior inference and propose a scalable training algorithm based on
amortized variational inference. By leveraging diversity-seeking reinforcement
learning algorithms, we introduce a novel sparse reward function for
token-level learning signals that encourage diverse, high-likelihood latent
CoT, overcoming deterministic sampling limitations and avoiding reward hacking.
Additionally, we implement a Bayesian inference-scaling strategy that replaces
costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank
optimal rationales and answers. We empirically demonstrate that the proposed
method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in
terms of effectiveness, generalization, and interpretability.