O Custo de Ver: Alcançar Raciocínio Multimodal Confiável no Paradigma Monolítico

Resumo

A rápida proliferação de Modelos de Visão-Linguagem (MVLs) é frequentemente enquadrada como uma via para a descoberta unificada de conhecimento multimodal, mas assenta numa premissa pouco examinada: a de que os MVLs atuais sintetizam fielmente os dados multimodais. Defendemos que, muitas vezes, não o fazem, e esta lacuna reflete um problema de confiabilidade no paradigma dominante de Codificador de Visão-Projetor-LLM. Em vez de extrair conhecimento fundamentado de entradas visuais, os modelos de última geração exibem frequentemente cegueira funcional, ou seja, exploram fortes prioridades linguísticas para contornar graves estrangulamentos na representação visual. Neste trabalho, questionamos a metodologia convencional de avaliação multimodal, que depende da ablação de dados ou da criação de novos conjuntos de dados e, portanto, confunde vieses dos conjuntos de dados com incapacidade arquitetural. Propomos uma abordagem baseada na teoria da informação: o Protocolo de Tradução de Modalidade, concebido para quantificar o que chamamos de Custo de Ver. Ao traduzir as cargas semânticas, em vez de as ablacionar, formulamos três métricas inéditas — o Pedágio (PdV), a Maldição (MdV) e a Falácia (FdV) de Ver — que culminam no Critério de Suficiência Semântica (CSS). Além disso, levantamos a hipótese de uma Lei de Divergência do Escalonamento Multimodal: à medida que os motores linguísticos subjacentes escalam para capacidades de raciocínio sem precedentes, a penalidade do gargalo de conhecimento visual pode aumentar, e não diminuir. Argumentamos que a comunidade deve ir além do "ganho multimodal" como principal alvo de avaliação. Ao elevar o CSS de uma restrição diagnóstica passiva a um projeto arquitetónico ativo, fornecemos uma base para orientar a próxima geração de sistemas de IA rumo a um genuíno raciocínio multimodal.

English

The rapid proliferation of Vision-Language Models (VLMs) is often framed as enabling unified multimodal knowledge discovery but rests on an under-examined assumption: that current VLMs faithfully synthesise multimodal data. We argue they often do not, and this gap reflects a trustworthiness problem in the dominant Vision Encoder-Projector-LLM paradigm. Rather than extracting grounded knowledge from visual inputs, state-of-the-art models frequently exhibit functional blindness, i.e., exploiting strong language priors to bypass severe visual representation bottlenecks. In this work, we challenge the conventional methodology of multimodal evaluation, which relies on data ablation or new dataset creation and therefore conflates dataset biases with architectural incapacity. We propose an information-theoretic departure: the Modality Translation Protocol, designed to quantify what we call the Expense of Seeing. By translating semantic payloads rather than ablating them, we formulate three novel metrics -- the Toll (ToS), Curse (CoS), and Fallacy (FoS) of Seeing -- culminating in the Semantic Sufficiency Criterion (SSC). Furthermore, we hypothesise a Divergence Law of Multimodal Scaling: as the underlying language engines scale to unprecedented reasoning capabilities, the penalty of the visual knowledge bottleneck may increase rather than diminish. We argue the community should move beyond "multimodal gain" as a primary evaluation target. By elevating the SSC from a passive diagnostic constraint to an active architectural blueprint, we provide a foundation for guiding the next generation of AI systems toward genuine multimodal reasoning.