Косинус вводит в заблуждение: вспомогательные функции потерь изменяют визуально-языковые модели, а не их скрытые представления

Аннотация

Латентное визуальное рассуждение (LVR) вставляет контролируемые латентные токены между восприятием и генерацией ответа в моделях «зрение—язык» (VLM). В этой области используется выравнивание между этими латентными представлениями и их визуальными целями, то есть косинусное сходство или среднеквадратическая ошибка (MSE), как в качестве функции потерь при обучении, так и в качестве метрики качества, исходя из предположения, что лучшее выравнивание ведёт к лучшему ответу. Мы проверяем это с помощью специально построенной матрицы из пяти вариантов LVR и обнаруживаем, что предположение инвертировано: косинусное выравнивание отрицательно коррелирует с точностью во всех пяти случаях (r = –0,94). Для объяснения этого мы вводим PRISM — пару диагностических методов во время инференса: линейный зонд, определяющий, где ответ может быть декодирован, и тест на искажение, выясняющий, является ли латентное представление несущим нагрузку. Контролируемые латентные представления в значительной степени обходятся. Их искажение изменяет точность не более чем на четыре пункта. Ответ декодируем после латентного представления, но не на самом латентном представлении, и размер этого разрыва в декодируемости предсказывает, насколько каждый вариант полагается на своё латентное представление при возмущении. В соответствии с интерпретацией функции потерь с точки зрения информационного узкого места (Information Bottleneck), вспомогательная цель перестраивает языковую модель через общие параметры, а не через латентную переменную, которую она номинально оптимизирует.

English

Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vision-language models (VLMs). The field uses alignment between these latents and their visual targets, i.e., cosine similarity or mean squared error (MSE), as both the training loss and the quality metric, assuming that better alignment yields a better answer. We test this with a designed matrix of five LVR variants and find the assumption inverted: cosine alignment is negatively correlated with accuracy across all five (r=-0.94). To explain this, we introduce PRISM, a pair of inference-time diagnostics: a linear probe that asks where the answer is decodable, and a corruption test that asks whether the latent is load-bearing. The supervised latents are largely bypassed. Corrupting them shifts accuracy by at most four points. The answer is decodable downstream of the latent but not at it, and the size of this decodability gap predicts how much each variant relies on its latent under perturbation. Consistent with an Information Bottleneck reading of the loss, the auxiliary objective reshapes the language model via shared parameters rather than via the latent variable it nominally optimizes.