Die Kosten des Sehens: Vertrauenswürdiges multimodales Schließen im monolithischen Paradigma erreichen

Zusammenfassung

Die rasante Verbreitung von Vision-Language-Modellen (VLMs) wird oft als Ermöglichung einer einheitlichen multimodalen Wissensentdeckung dargestellt, beruht jedoch auf einer kaum untersuchten Annahme: dass aktuelle VLMs multimodale Daten getreu synthetisieren. Wir argumentieren, dass sie dies häufig nicht tun, und diese Lücke ein Problem der Vertrauenswürdigkeit im vorherrschenden Paradigma des Vision-Encoder-Projektor-LLM widerspiegelt. Statt fundiertes Wissen aus visuellen Eingaben zu extrahieren, weisen hochmoderne Modelle häufig eine funktionale Blindheit auf, d. h., sie nutzen starke Sprachpriors aus, um schwerwiegende Engpässe der visuellen Repräsentation zu umgehen. In dieser Arbeit stellen wir die konventionelle Methodik der multimodalen Evaluation in Frage, die auf Datenablation oder der Erstellung neuer Datensätze beruht und daher Datensatzverzerrungen mit architektonischer Unfähigkeit vermengt. Wir schlagen einen informationstheoretischen Neuansatz vor: das Modalitätsübersetzungsprotokoll, das darauf ausgelegt ist, zu quantifizieren, was wir die Kosten des Sehens nennen. Indem wir semantische Lasten übersetzen statt sie zu ablieren, formulieren wir drei neuartige Metriken – die Gebühr (ToS), den Fluch (CoS) und den Trugschluss (FoS) des Sehens –, die im semantischen Suffizienzkriterium (SSC) gipfeln. Darüber hinaus stellen wir die Hypothese eines Divergenzgesetzes des multimodalen Skalierens auf: Wenn die zugrunde liegenden Sprach-Engines auf beispiellose Reasoning-Fähigkeiten skaliert werden, könnte die Strafe des visuellen Wissensengpasses zunehmen statt abnehmen. Wir argumentieren, dass die Community über den „multimodalen Gewinn“ als primäres Evaluationsziel hinausgehen sollte. Indem wir das SSC von einer passiven diagnostischen Einschränkung zu einem aktiven architektonischen Bauplan erheben, schaffen wir eine Grundlage, um die nächste Generation von KI-Systemen hin zu echtem multimodalen Reasoning zu führen.

English

The rapid proliferation of Vision-Language Models (VLMs) is often framed as enabling unified multimodal knowledge discovery but rests on an under-examined assumption: that current VLMs faithfully synthesise multimodal data. We argue they often do not, and this gap reflects a trustworthiness problem in the dominant Vision Encoder-Projector-LLM paradigm. Rather than extracting grounded knowledge from visual inputs, state-of-the-art models frequently exhibit functional blindness, i.e., exploiting strong language priors to bypass severe visual representation bottlenecks. In this work, we challenge the conventional methodology of multimodal evaluation, which relies on data ablation or new dataset creation and therefore conflates dataset biases with architectural incapacity. We propose an information-theoretic departure: the Modality Translation Protocol, designed to quantify what we call the Expense of Seeing. By translating semantic payloads rather than ablating them, we formulate three novel metrics -- the Toll (ToS), Curse (CoS), and Fallacy (FoS) of Seeing -- culminating in the Semantic Sufficiency Criterion (SSC). Furthermore, we hypothesise a Divergence Law of Multimodal Scaling: as the underlying language engines scale to unprecedented reasoning capabilities, the penalty of the visual knowledge bottleneck may increase rather than diminish. We argue the community should move beyond "multimodal gain" as a primary evaluation target. By elevating the SSC from a passive diagnostic constraint to an active architectural blueprint, we provide a foundation for guiding the next generation of AI systems toward genuine multimodal reasoning.