Le coût de la vision : parvenir à un raisonnement multimodal fiable au sein du paradigme monolithique

Résumé

La prolifération rapide des Modèles Vision-Langage (MVL) est souvent présentée comme permettant une découverte unifiée des connaissances multimodales, mais elle repose sur une hypothèse insuffisamment examinée : celle que les MVL actuels synthétisent fidèlement les données multimodales. Nous soutenons qu’ils échouent souvent à le faire, et ce décalage révèle un problème de fiabilité au sein du paradigme dominant Encodeur Visuel-Projecteur-LLM. Plutôt que d’extraire des connaissances ancrées à partir des entrées visuelles, les modèles de pointe affichent fréquemment une cécité fonctionnelle, c’est-à-dire qu’ils exploitent de forts a priori linguistiques pour contourner de graves goulets d’étranglement dans la représentation visuelle. Dans ce travail, nous remettons en cause la méthodologie conventionnelle d’évaluation multimodale, qui repose sur l’ablation de données ou la création de nouveaux ensembles de données, confondant ainsi les biais de données avec les limitations architecturales. Nous proposons une rupture information-théorique : le Protocole de Traduction de Modalité, conçu pour quantifier ce que nous appelons le Coût de la Vision. En traduisant les charges sémantiques plutôt qu’en les ablatant, nous formulons trois nouvelles métriques — le Péage (PéV), la Malédiction (MaV) et le Sophisme (SoV) de la Vision — aboutissant au Critère de Suffisance Sémantique (CSS). De plus, nous émettons l’hypothèse d’une Loi de Divergence du Passage à l’Échelle Multimodal : à mesure que les moteurs linguistiques sous-jacents gagnent en capacités de raisonnement sans précédent, la pénalité du goulet d’étranglement des connaissances visuelles pourrait augmenter plutôt que diminuer. Nous soutenons que la communauté devrait dépasser le « gain multimodal » comme cible d’évaluation principale. En élevant le CSS d’une contrainte diagnostique passive à un plan architectural actif, nous fournissons une base pour guider la prochaine génération de systèmes d’IA vers un véritable raisonnement multimodal.

English

The rapid proliferation of Vision-Language Models (VLMs) is often framed as enabling unified multimodal knowledge discovery but rests on an under-examined assumption: that current VLMs faithfully synthesise multimodal data. We argue they often do not, and this gap reflects a trustworthiness problem in the dominant Vision Encoder-Projector-LLM paradigm. Rather than extracting grounded knowledge from visual inputs, state-of-the-art models frequently exhibit functional blindness, i.e., exploiting strong language priors to bypass severe visual representation bottlenecks. In this work, we challenge the conventional methodology of multimodal evaluation, which relies on data ablation or new dataset creation and therefore conflates dataset biases with architectural incapacity. We propose an information-theoretic departure: the Modality Translation Protocol, designed to quantify what we call the Expense of Seeing. By translating semantic payloads rather than ablating them, we formulate three novel metrics -- the Toll (ToS), Curse (CoS), and Fallacy (FoS) of Seeing -- culminating in the Semantic Sufficiency Criterion (SSC). Furthermore, we hypothesise a Divergence Law of Multimodal Scaling: as the underlying language engines scale to unprecedented reasoning capabilities, the penalty of the visual knowledge bottleneck may increase rather than diminish. We argue the community should move beyond "multimodal gain" as a primary evaluation target. By elevating the SSC from a passive diagnostic constraint to an active architectural blueprint, we provide a foundation for guiding the next generation of AI systems toward genuine multimodal reasoning.