El coseno engaña: Las pérdidas auxiliares reconfiguran los modelos de visión-lenguaje, no sus latentes

Resumen

El razonamiento visual latente (LVR, por sus siglas en inglés) inserta tokens latentes supervisados entre la percepción y la generación de respuestas en modelos de visión y lenguaje (VLMs). El campo utiliza la alineación entre estos latentes y sus objetivos visuales, es decir, la similitud coseno o el error cuadrático medio (ECM), tanto como la función de pérdida de entrenamiento como la métrica de calidad, asumiendo que una mejor alineación produce una mejor respuesta. Ponemos esto a prueba con una matriz diseñada de cinco variantes de LVR y encontramos que la suposición se invierte: la alineación coseno se correlaciona negativamente con la precisión en las cinco variantes (r = -0.94). Para explicar esto, introducimos PRISM, un par de diagnósticos en tiempo de inferencia: una sonda lineal que pregunta dónde es decodificable la respuesta, y una prueba de corrupción que pregunta si el latente es portante. Los latentes supervisados son ampliamente eludidos. Corromperlos desplaza la precisión en, como máximo, cuatro puntos. La respuesta es decodificable en etapas posteriores al latente, pero no en el latente mismo, y el tamaño de esta brecha de decodificabilidad predice cuánto depende cada variante de su latente bajo perturbación. En consonancia con una interpretación de Cuello de Botella de Información de la pérdida, el objetivo auxiliar remodela el modelo de lenguaje a través de parámetros compartidos, en lugar de a través de la variable latente que nominalmente optimiza.

English

Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vision-language models (VLMs). The field uses alignment between these latents and their visual targets, i.e., cosine similarity or mean squared error (MSE), as both the training loss and the quality metric, assuming that better alignment yields a better answer. We test this with a designed matrix of five LVR variants and find the assumption inverted: cosine alignment is negatively correlated with accuracy across all five (r=-0.94). To explain this, we introduce PRISM, a pair of inference-time diagnostics: a linear probe that asks where the answer is decodable, and a corruption test that asks whether the latent is load-bearing. The supervised latents are largely bypassed. Corrupting them shifts accuracy by at most four points. The answer is decodable downstream of the latent but not at it, and the size of this decodability gap predicts how much each variant relies on its latent under perturbation. Consistent with an Information Bottleneck reading of the loss, the auxiliary objective reshapes the language model via shared parameters rather than via the latent variable it nominally optimizes.