Cadeia de Pensamento Latente para Raciocínio Visual
Latent Chain-of-Thought for Visual Reasoning
October 27, 2025
Autores: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI
Resumo
O raciocínio de cadeia de pensamento (CoT) é fundamental para melhorar a interpretabilidade e a confiabilidade dos Grandes Modelos de Visão e Linguagem (LVLMs). No entanto, os algoritmos de treinamento existentes, como SFT, PPO e GRPO, podem não generalizar bem em tarefas de raciocínio não vistas e dependem fortemente de um modelo de recompensa tendencioso. Para enfrentar este desafio, reformulamos o raciocínio em LVLMs como inferência posterior e propomos um algoritmo de treinamento escalável baseado em inferência variacional amortizada. Ao aproveitar algoritmos de aprendizagem por reforço que buscam diversidade, introduzimos uma nova função de recompensa esparsa para sinais de aprendizagem a nível de token que incentivam CoT latente diversificado e de alta probabilidade, superando as limitações da amostragem determinística e evitando a manipulação de recompensas. Adicionalmente, implementamos uma estratégia de escalonamento de inferência bayesiana que substitui os custosos Best-of-N e Busca em Feixe por uma verossimilhança marginal para classificar eficientemente as racionalidades e respostas ótimas. Demonstramos empiricamente que o método proposto melhora os LVLMs de última geração em sete benchmarks de raciocínio, em termos de eficácia, generalização e interpretabilidade.
English
Chain-of-thought (CoT) reasoning is critical for improving the
interpretability and reliability of Large Vision-Language Models (LVLMs).
However, existing training algorithms such as SFT, PPO, and GRPO may not
generalize well across unseen reasoning tasks and heavily rely on a biased
reward model. To address this challenge, we reformulate reasoning in LVLMs as
posterior inference and propose a scalable training algorithm based on
amortized variational inference. By leveraging diversity-seeking reinforcement
learning algorithms, we introduce a novel sparse reward function for
token-level learning signals that encourage diverse, high-likelihood latent
CoT, overcoming deterministic sampling limitations and avoiding reward hacking.
Additionally, we implement a Bayesian inference-scaling strategy that replaces
costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank
optimal rationales and answers. We empirically demonstrate that the proposed
method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in
terms of effectiveness, generalization, and interpretability.