De Prijs van het Zien: Het Bereiken van Betrouwbare Multimodale Redenering Binnen het Monolithische Paradigma

Samenvatting

De snelle proliferatie van Visie-Taalmodellen (VLMs) wordt vaak gepresenteerd als een stap voorwaarts naar uniforme multimodale kennisontdekking, maar berust op een onvoldoende onderzochte aanname: dat huidige VLMs multimodale gegevens getrouw synthetiseren. Wij stellen dat ze dit vaak niet doen, en dat deze kloof een betrouwbaarheidsprobleem weerspiegelt in het dominante paradigma van Visie-Encoder-Projector-LLM. In plaats van gefundeerde kennis uit visuele inputs te halen, vertonen state-of-the-art modellen vaak functionele blindheid, d.w.z. het exploiteren van sterke taalprior om ernstige knelpunten in de visuele representatie te omzeilen. In dit werk betwisten we de conventionele methodologie van multimodale evaluatie, die steunt op data-ablatie of het creëren van nieuwe datasets en daardoor datasetvooroordelen verwart met architecturale incapaciteit. We stellen een informatie-theoretische afwijking voor: het Modaliteit Vertaalprotocol, ontworpen om te kwantificeren wat wij de Kosten van Zien noemen. Door semantische ladingen te vertalen in plaats van te ableren, formuleren we drie nieuwe metrieken -- de Tol (ToS), Vloek (CoS) en Misvatting (FoS) van Zien -- die uitmonden in het Semantische Toereikendheidscriterium (SSC). Verder veronderstellen we een Divergentiewet van Multimodale Schaling: naarmate de onderliggende taalengines schalen naar ongekende redeneervermogens, kan de boete van de visuele kennisknelpunt toenemen in plaats van afnemen. We beargumenteren dat de gemeenschap verder moet kijken dan "multimodale winst" als primair evaluatiedoel. Door het SSC te verheffen van een passieve diagnostische beperking tot een actieve architecturale blauwdruk, bieden we een basis voor het sturen van de volgende generatie AI-systemen naar echte multimodale redenering.

English

The rapid proliferation of Vision-Language Models (VLMs) is often framed as enabling unified multimodal knowledge discovery but rests on an under-examined assumption: that current VLMs faithfully synthesise multimodal data. We argue they often do not, and this gap reflects a trustworthiness problem in the dominant Vision Encoder-Projector-LLM paradigm. Rather than extracting grounded knowledge from visual inputs, state-of-the-art models frequently exhibit functional blindness, i.e., exploiting strong language priors to bypass severe visual representation bottlenecks. In this work, we challenge the conventional methodology of multimodal evaluation, which relies on data ablation or new dataset creation and therefore conflates dataset biases with architectural incapacity. We propose an information-theoretic departure: the Modality Translation Protocol, designed to quantify what we call the Expense of Seeing. By translating semantic payloads rather than ablating them, we formulate three novel metrics -- the Toll (ToS), Curse (CoS), and Fallacy (FoS) of Seeing -- culminating in the Semantic Sufficiency Criterion (SSC). Furthermore, we hypothesise a Divergence Law of Multimodal Scaling: as the underlying language engines scale to unprecedented reasoning capabilities, the penalty of the visual knowledge bottleneck may increase rather than diminish. We argue the community should move beyond "multimodal gain" as a primary evaluation target. By elevating the SSC from a passive diagnostic constraint to an active architectural blueprint, we provide a foundation for guiding the next generation of AI systems toward genuine multimodal reasoning.