Le cosinus trompe : les pertes auxiliaires remodèlent les modèles vision-langage, pas leurs latents.

Résumé

Le raisonnement visuel latent (RVL) insère des jetons latents supervisés entre la perception et la génération de réponses dans les modèles vision-langage (MVL). Ce domaine utilise l'alignement entre ces latents et leurs cibles visuelles, c'est-à-dire la similarité cosinus ou l'erreur quadratique moyenne (EQM), à la fois comme fonction de perte et comme métrique de qualité, en supposant qu'un meilleur alignement conduit à une meilleure réponse. Nous testons cette hypothèse avec une matrice conçue de cinq variantes de RVL et constatons que le postulat est inversé : l'alignement cosinus est corrélé négativement à la précision pour les cinq variantes (r = -0,94). Pour expliquer cela, nous introduisons PRISM, une paire de diagnostics en inférence : une sonde linéaire qui détermine où la réponse est décodeable, et un test de corruption qui évalue si le latent est porteur. Les latents supervisés sont largement contournés. Leur corruption modifie la précision d'au plus quatre points. La réponse est décodeable en aval du latent mais pas à son niveau, et l'ampleur de cet écart de décodeabilité prédit à quel point chaque variante dépend de son latent sous perturbation. Conformément à une lecture de la perte par le goulot d'étranglement informationnel, l'objectif auxiliaire remodèle le modèle de langage via des paramètres partagés plutôt que via la variable latente qu'il optimise nominalement.

English

Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vision-language models (VLMs). The field uses alignment between these latents and their visual targets, i.e., cosine similarity or mean squared error (MSE), as both the training loss and the quality metric, assuming that better alignment yields a better answer. We test this with a designed matrix of five LVR variants and find the assumption inverted: cosine alignment is negatively correlated with accuracy across all five (r=-0.94). To explain this, we introduce PRISM, a pair of inference-time diagnostics: a linear probe that asks where the answer is decodable, and a corruption test that asks whether the latent is load-bearing. The supervised latents are largely bypassed. Corrupting them shifts accuracy by at most four points. The answer is decodable downstream of the latent but not at it, and the size of this decodability gap predicts how much each variant relies on its latent under perturbation. Consistent with an Information Bottleneck reading of the loss, the auxiliary objective reshapes the language model via shared parameters rather than via the latent variable it nominally optimizes.