La imaginación ayuda al razonamiento visual, pero aún no en el espacio latente.

Resumen

El razonamiento visual latente busca imitar el proceso de imaginación humana mediante la meditación a través de los estados ocultos de los Modelos de Lenguaje Grandes Multimodales. Aunque se reconoce como un paradigma prometedor para el razonamiento visual, los mecanismos subyacentes que impulsan su efectividad permanecen poco claros. Motivados por desmitificar la verdadera fuente de su eficacia, investigamos la validez del razonamiento latente utilizando Análisis de Mediación Causal. Modelamos el proceso como una cadena causal: la entrada como el tratamiento, los tokens latentes como el mediador y la respuesta final como el resultado. Nuestros hallazgos descubren dos desconexiones críticas: (a) Desconexión Entrada-Latente: perturbaciones drásticas en la entrada resultan en cambios insignificantes en los tokens latentes, lo que sugiere que los tokens latentes no atienden efectivamente a la secuencia de entrada. (b) Desconexión Latente-Respuesta: las perturbaciones en los tokens latentes tienen un impacto mínimo en la respuesta final, indicando el limitado efecto causal que los tokens latentes imponen sobre el resultado. Además, un extenso análisis de sondeo revela que los tokens latentes codifican información visual limitada y exhiben una alta similitud. En consecuencia, cuestionamos la necesidad del razonamiento latente y proponemos una alternativa sencilla llamada CapImagine, que enseña al modelo a imaginar explícitamente usando texto. Los experimentos en benchmarks centrados en la visión muestran que CapImagine supera significativamente a las complejas líneas base del espacio latente, resaltando el potencial superior del razonamiento visual a través de la imaginación explícita.

English

Latent visual reasoning aims to mimic human's imagination process by meditating through hidden states of Multimodal Large Language Models. While recognized as a promising paradigm for visual reasoning, the underlying mechanisms driving its effectiveness remain unclear. Motivated to demystify the true source of its efficacy, we investigate the validity of latent reasoning using Causal Mediation Analysis. We model the process as a causal chain: the input as the treatment, the latent tokens as the mediator, and the final answer as the outcome. Our findings uncover two critical disconnections: (a) Input-Latent Disconnect: dramatic perturbations on the input result in negligible changes to the latent tokens, suggesting that latent tokens do not effectively attend to the input sequence. (b) Latent-Answer Disconnect: perturbations on the latent tokens yield minimal impact on the final answer, indicating the limited causal effect latent tokens imposing on the outcome. Furthermore, extensive probing analysis reveals that latent tokens encode limited visual information and exhibit high similarity. Consequently, we challenge the necessity of latent reasoning and propose a straightforward alternative named CapImagine, which teaches the model to explicitly imagine using text. Experiments on vision-centric benchmarks show that CapImagine significantly outperforms complex latent-space baselines, highlighting the superior potential of visual reasoning through explicit imagination.

La imaginación ayuda al razonamiento visual, pero aún no en el espacio latente.

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Resumen

Support