El costo de ver: lograr un razonamiento multimodal confiable dentro del paradigma monolítico

Resumen

La rápida proliferación de los Modelos de Visión y Lenguaje (VLMs) suele presentarse como habilitadora del descubrimiento unificado de conocimiento multimodal, pero descansa sobre un supuesto poco examinado: que los VLMs actuales sintetizan fielmente los datos multimodales. Sostenemos que a menudo no lo hacen, y esta brecha refleja un problema de confiabilidad en el paradigma dominante de Codificador de Visión-Proyector-LLM. En lugar de extraer conocimiento fundamentado de las entradas visuales, los modelos de vanguardia frecuentemente exhiben ceguera funcional, es decir, explotan fuertes sesgos lingüísticos para eludir graves cuellos de botella en la representación visual. En este trabajo, cuestionamos la metodología convencional de evaluación multimodal, que se basa en la ablación de datos o la creación de nuevos conjuntos de datos y, por lo tanto, confunde los sesgos de los conjuntos de datos con la incapacidad arquitectónica. Proponemos un enfoque basado en la teoría de la información: el Protocolo de Traducción de Modalidades, diseñado para cuantificar lo que denominamos el Coste de Ver. Al traducir las cargas semánticas en lugar de ablarlas, formulamos tres métricas novedosas —el Peaje (ToS), la Maldición (CoS) y la Falacia (FoS) de Ver— que culminan en el Criterio de Suficiencia Semántica (SSC). Además, planteamos la hipótesis de una Ley de Divergencia del Escalamiento Multimodal: a medida que los motores lingüísticos subyacentes escalan hacia capacidades de razonamiento sin precedentes, la penalización del cuello de botella del conocimiento visual puede aumentar, no disminuir. Argumentamos que la comunidad debe ir más allá de la "ganancia multimodal" como objetivo principal de evaluación. Al elevar el SSC de una restricción diagnóstica pasiva a un plano arquitectónico activo, proporcionamos una base para guiar a la próxima generación de sistemas de IA hacia un razonamiento multimodal genuino.

English

The rapid proliferation of Vision-Language Models (VLMs) is often framed as enabling unified multimodal knowledge discovery but rests on an under-examined assumption: that current VLMs faithfully synthesise multimodal data. We argue they often do not, and this gap reflects a trustworthiness problem in the dominant Vision Encoder-Projector-LLM paradigm. Rather than extracting grounded knowledge from visual inputs, state-of-the-art models frequently exhibit functional blindness, i.e., exploiting strong language priors to bypass severe visual representation bottlenecks. In this work, we challenge the conventional methodology of multimodal evaluation, which relies on data ablation or new dataset creation and therefore conflates dataset biases with architectural incapacity. We propose an information-theoretic departure: the Modality Translation Protocol, designed to quantify what we call the Expense of Seeing. By translating semantic payloads rather than ablating them, we formulate three novel metrics -- the Toll (ToS), Curse (CoS), and Fallacy (FoS) of Seeing -- culminating in the Semantic Sufficiency Criterion (SSC). Furthermore, we hypothesise a Divergence Law of Multimodal Scaling: as the underlying language engines scale to unprecedented reasoning capabilities, the penalty of the visual knowledge bottleneck may increase rather than diminish. We argue the community should move beyond "multimodal gain" as a primary evaluation target. By elevating the SSC from a passive diagnostic constraint to an active architectural blueprint, we provide a foundation for guiding the next generation of AI systems toward genuine multimodal reasoning.