Cadena de Pensamiento Latente para el Razonamiento Visual
Latent Chain-of-Thought for Visual Reasoning
October 27, 2025
Autores: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI
Resumen
El razonamiento de cadena de pensamiento (CoT) es fundamental para mejorar la interpretabilidad y confiabilidad de los Grandes Modelos de Visión y Lenguaje (LVLM). Sin embargo, los algoritmos de entrenamiento existentes, como SFT, PPO y GRPO, pueden no generalizar bien en tareas de razonamiento no vistas y dependen en gran medida de un modelo de recompensa sesgado. Para abordar este desafío, reformulamos el razonamiento en los LVLM como un problema de inferencia posterior y proponemos un algoritmo de entrenamiento escalable basado en inferencia variacional amortiguada. Al aprovechar algoritmos de aprendizaje por refuerzo que buscan diversidad, introducimos una novedosa función de recompensa dispersa para señales de aprendizaje a nivel de token que fomentan CoT latentes diversos y de alta verosimilitud, superando las limitaciones del muestreo determinista y evitando la manipulación de recompensas. Adicionalmente, implementamos una estrategia de escalado de inferencia bayesiana que reemplaza los costosos métodos de Mejor-de-N y Búsqueda por Haz con una verosimilitud marginal para clasificar eficientemente las racionalidades y respuestas óptimas. Demostramos empíricamente que el método propuesto mejora los LVLM de última generación en siete benchmarks de razonamiento, en términos de efectividad, generalización e interpretabilidad.
English
Chain-of-thought (CoT) reasoning is critical for improving the
interpretability and reliability of Large Vision-Language Models (LVLMs).
However, existing training algorithms such as SFT, PPO, and GRPO may not
generalize well across unseen reasoning tasks and heavily rely on a biased
reward model. To address this challenge, we reformulate reasoning in LVLMs as
posterior inference and propose a scalable training algorithm based on
amortized variational inference. By leveraging diversity-seeking reinforcement
learning algorithms, we introduce a novel sparse reward function for
token-level learning signals that encourage diverse, high-likelihood latent
CoT, overcoming deterministic sampling limitations and avoiding reward hacking.
Additionally, we implement a Bayesian inference-scaling strategy that replaces
costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank
optimal rationales and answers. We empirically demonstrate that the proposed
method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in
terms of effectiveness, generalization, and interpretability.