ChatPaper.aiChatPaper

Pensiero a Catena Latente per il Ragionamento Visivo

Latent Chain-of-Thought for Visual Reasoning

October 27, 2025
Autori: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI

Abstract

Il ragionamento a catena del pensiero (CoT) è fondamentale per migliorare l'interpretabilità e l'affidabilità dei grandi modelli visione-linguaggio (LVLM). Tuttavia, gli attuali algoritmi di addestramento come SFT, PPO e GRPO potrebbero non generalizzare efficacemente su compiti di ragionamento non visti e dipendono fortemente da modelli di reward distorti. Per affrontare questa sfida, riformuliamo il ragionamento negli LVLM come inferenza a posteriori e proponiamo un algoritmo di addestramento scalabile basato sull'inferenza variazionale ammortizzata. Sfruttando algoritmi di apprendimento per rinforzo orientati alla diversità, introduciamo una nuova funzione di reward sparsa per segnali di apprendimento a livello di token che incoraggia CoT latenti diversificati e ad alta probabilità, superando i limiti del campionamento deterministico ed evitando la manipolazione del reward. Inoltre, implementiamo una strategia di scaling dell'inferenza bayesiana che sostituisce i costosi Best-of-N e Beam Search con una verosimiglianza marginale per classificare efficientemente le razionalità e le risposte ottimali. Dimostriamo empiricamente che il metodo proposto migliora gli LVLM allo stato dell'arte su sette benchmark di ragionamento, in termini di efficacia, generalizzazione e interpretabilità.
English
Chain-of-thought (CoT) reasoning is critical for improving the interpretability and reliability of Large Vision-Language Models (LVLMs). However, existing training algorithms such as SFT, PPO, and GRPO may not generalize well across unseen reasoning tasks and heavily rely on a biased reward model. To address this challenge, we reformulate reasoning in LVLMs as posterior inference and propose a scalable training algorithm based on amortized variational inference. By leveraging diversity-seeking reinforcement learning algorithms, we introduce a novel sparse reward function for token-level learning signals that encourage diverse, high-likelihood latent CoT, overcoming deterministic sampling limitations and avoiding reward hacking. Additionally, we implement a Bayesian inference-scaling strategy that replaces costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank optimal rationales and answers. We empirically demonstrate that the proposed method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in terms of effectiveness, generalization, and interpretability.
PDF91December 1, 2025