Издержки зрения: Достижение надежного мультимодального рассуждения в рамках монолитной парадигмы

Аннотация

Стремительное распространение зрительно-языковых моделей (ЗЯМ) часто преподносится как шаг к унифицированному мультимодальному обнаружению знаний, однако оно опирается на недостаточно проверенное допущение: будто современные ЗЯМ достоверно синтезируют мультимодальные данные. Мы утверждаем, что это зачастую не так, и этот пробел отражает проблему доверия к доминирующей парадигме «зрительный кодировщик – проектор – языковая модель». Вместо извлечения обоснованного знания из визуальных данных современные модели нередко демонстрируют функциональную слепоту, то есть используют сильные языковые априорные предпочтения, чтобы обойти серьёзные узкие места в зрительном представлении. В данной работе мы оспариваем традиционную методологию мультимодального оценивания, основанную на абляции данных или создании новых наборов данных, что приводит к смешению смещений (bias) в данных с архитектурными ограничениями. Мы предлагаем информационно-теоретический отход от этой практики: Протокол трансляции модальностей, предназначенный для количественной оценки того, что мы называем Ценой зрения. Вместо абляции семантических нагрузок мы осуществляем их трансляцию, формулируя три новые метрики — Пошлину (ПоЗ), Проклятие (ПроЗ) и Заблуждение (ЗаЗ) зрения — и получая в итоге Критерий семантической достаточности (КСД). Кроме того, мы выдвигаем гипотезу о Законе расхождения мультимодального масштабирования: по мере того как базовые языковые двигатели достигают беспрецедентных рассуждающих способностей, штраф за ограниченность визуальных знаний может возрастать, а не уменьшаться. Мы утверждаем, что научному сообществу следует отойти от «мультимодального выигрыша» как основной цели оценивания. Возводя КСД из пассивного диагностического ограничения в активный архитектурный проект, мы создаём основу для направления следующего поколения систем искусственного интеллекта к подлинному мультимодальному рассуждению.

English

The rapid proliferation of Vision-Language Models (VLMs) is often framed as enabling unified multimodal knowledge discovery but rests on an under-examined assumption: that current VLMs faithfully synthesise multimodal data. We argue they often do not, and this gap reflects a trustworthiness problem in the dominant Vision Encoder-Projector-LLM paradigm. Rather than extracting grounded knowledge from visual inputs, state-of-the-art models frequently exhibit functional blindness, i.e., exploiting strong language priors to bypass severe visual representation bottlenecks. In this work, we challenge the conventional methodology of multimodal evaluation, which relies on data ablation or new dataset creation and therefore conflates dataset biases with architectural incapacity. We propose an information-theoretic departure: the Modality Translation Protocol, designed to quantify what we call the Expense of Seeing. By translating semantic payloads rather than ablating them, we formulate three novel metrics -- the Toll (ToS), Curse (CoS), and Fallacy (FoS) of Seeing -- culminating in the Semantic Sufficiency Criterion (SSC). Furthermore, we hypothesise a Divergence Law of Multimodal Scaling: as the underlying language engines scale to unprecedented reasoning capabilities, the penalty of the visual knowledge bottleneck may increase rather than diminish. We argue the community should move beyond "multimodal gain" as a primary evaluation target. By elevating the SSC from a passive diagnostic constraint to an active architectural blueprint, we provide a foundation for guiding the next generation of AI systems toward genuine multimodal reasoning.