Cosine Misleidt: Hulpverliezen Hervormen Visie-Taalmodellen, Niet Hun Latenten

Samenvatting

Latente visuele redenering (LVR) voegt gesuperviseerde latente tokens in tussen perceptie en antwoordgeneratie in visie-taalmodellen (VTM’s). Het veld gebruikt de overeenstemming tussen deze latenten en hun visuele doelen, d.w.z. cosinusovereenkomst of gemiddelde kwadratische fout (MSE), zowel als trainingsverlies als kwaliteitsmaatstaf, in de veronderstelling dat betere overeenstemming leidt tot een beter antwoord. We testen dit met een ontworpen matrix van vijf LVR-varianten en vinden de aanname omgekeerd: cosinusovereenkomst is negatief gecorreleerd met nauwkeurigheid over alle vijf (r=-0,94). Om dit te verklaren introduceren we PRISM, een paar inferentiediagnostieken: een lineaire probe die vraagt waar het antwoord decodeerbaar is, en een corruptietest die vraagt of het latent draagkrachtig is. De gesuperviseerde latenten worden grotendeels omzeild. Het corrumperen ervan verschuift de nauwkeurigheid met maximaal vier punten. Het antwoord is decodeerbaar stroomafwaarts van het latent, maar niet ervan, en de grootte van deze decodeerbaarheidskloof voorspelt in hoeverre elke variant op zijn latent vertrouwt onder verstoring. In overeenstemming met een Informatieknelpunt-interpretatie van het verlies, hervormt de hulpdoelstelling het taalmodel via gedeelde parameters in plaats van via de latente variabele die het nominaal optimaliseert.

English

Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vision-language models (VLMs). The field uses alignment between these latents and their visual targets, i.e., cosine similarity or mean squared error (MSE), as both the training loss and the quality metric, assuming that better alignment yields a better answer. We test this with a designed matrix of five LVR variants and find the assumption inverted: cosine alignment is negatively correlated with accuracy across all five (r=-0.94). To explain this, we introduce PRISM, a pair of inference-time diagnostics: a linear probe that asks where the answer is decodable, and a corruption test that asks whether the latent is load-bearing. The supervised latents are largely bypassed. Corrupting them shifts accuracy by at most four points. The answer is decodable downstream of the latent but not at it, and the size of this decodability gap predicts how much each variant relies on its latent under perturbation. Consistent with an Information Bottleneck reading of the loss, the auxiliary objective reshapes the language model via shared parameters rather than via the latent variable it nominally optimizes.