Kosinus führt in die Irre: Hilfsverluste gestalten Vision-Language-Modelle um, nicht deren latente Repräsentationen

Zusammenfassung

Latentes visuelles Denken (LVR) fügt zwischen Wahrnehmung und Antwortgenerierung in Vision-Language-Modellen (VLMs) überwachte latente Token ein. Das Feld verwendet die Ausrichtung zwischen diesen Latenten und ihren visuellen Zielen, d. h. Kosinus-Ähnlichkeit oder mittlerer quadratischer Fehler (MSE), sowohl als Trainingsverlust als auch als Qualitätsmetrik, unter der Annahme, dass eine bessere Ausrichtung eine bessere Antwort ergibt. Wir testen dies mit einer entworfenen Matrix von fünf LVR-Varianten und stellen fest, dass die Annahme umgekehrt ist: Die Kosinus-Ausrichtung ist über alle fünf Varianten hinweg negativ mit der Genauigkeit korreliert (r = –0,94). Zur Erklärung führen wir PRISM ein, ein Paar von Inferenzzeit-Diagnostiken: eine lineare Sonde, die fragt, wo die Antwort dekodierbar ist, und einen Korruptionstest, der fragt, ob das Latente tragend ist. Die überwachten Latenten werden weitgehend umgangen. Ihre Korruption verändert die Genauigkeit um höchstens vier Punkte. Die Antwort ist stromabwärts des Latenten dekodierbar, aber nicht an ihm selbst, und die Größe dieser Dekodierbarkeitslücke sagt voraus, wie stark jede Variante unter Störung auf ihr Latentes angewiesen ist. In Übereinstimmung mit einer Information-Bottleneck-Interpretation des Verlusts formt das Hilfsziel das Sprachmodell über gemeinsame Parameter um, anstatt über die latente Variable, die es nominell optimiert.

English

Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vision-language models (VLMs). The field uses alignment between these latents and their visual targets, i.e., cosine similarity or mean squared error (MSE), as both the training loss and the quality metric, assuming that better alignment yields a better answer. We test this with a designed matrix of five LVR variants and find the assumption inverted: cosine alignment is negatively correlated with accuracy across all five (r=-0.94). To explain this, we introduce PRISM, a pair of inference-time diagnostics: a linear probe that asks where the answer is decodable, and a corruption test that asks whether the latent is load-bearing. The supervised latents are largely bypassed. Corrupting them shifts accuracy by at most four points. The answer is decodable downstream of the latent but not at it, and the size of this decodability gap predicts how much each variant relies on its latent under perturbation. Consistent with an Information Bottleneck reading of the loss, the auxiliary objective reshapes the language model via shared parameters rather than via the latent variable it nominally optimizes.