SEAM: Punto de Referencia de Equivalencia Semántica a través de Modalidades para Modelos de Visión-Lenguaje
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
August 25, 2025
Autores: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI
Resumen
Evaluar si los modelos de visión y lenguaje (VLMs) razonan de manera consistente entre representaciones es un desafío porque las comparaciones entre modalidades suelen estar confundidas por diferencias en las tareas y por información asimétrica. Presentamos SEAM, un benchmark que empareja entradas semánticamente equivalentes en cuatro dominios que cuentan con notaciones textuales y visuales estandarizadas. Al emplear sistemas de notación distintos entre modalidades, en contraste con el emparejamiento imagen-texto basado en OCR, SEAM proporciona una evaluación comparativa rigurosa de las capacidades de razonamiento textual-simbólico y visual-espacial de los VLMs. En 21 modelos contemporáneos, observamos un desequilibrio sistemático entre modalidades: la visión frecuentemente se queda rezagada respecto al lenguaje en el rendimiento general, a pesar de que los problemas contienen información semánticamente equivalente, y la concordancia entre modalidades es relativamente baja. Nuestro análisis de errores revela dos factores principales: fallos en la percepción textual debido a la tokenización en la notación del dominio y fallos en la percepción visual que inducen alucinaciones. También demostramos que nuestros resultados son en gran medida robustos frente a transformaciones visuales. SEAM establece un entorno controlado y semánticamente equivalente para medir y mejorar el razonamiento independiente de la modalidad.
English
Evaluating whether vision-language models (VLMs) reason consistently across
representations is challenging because modality comparisons are typically
confounded by task differences and asymmetric information. We introduce SEAM, a
benchmark that pairs semantically equivalent inputs across four domains that
have existing standardized textual and visual notations. By employing distinct
notation systems across modalities, in contrast to OCR-based image-text
pairing, SEAM provides a rigorous comparative assessment of the
textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21
contemporary models, we observe systematic modality imbalance: vision
frequently lags language in overall performance, despite the problems
containing semantically equivalent information, and cross-modal agreement is
relatively low. Our error analysis reveals two main drivers: textual perception
failures from tokenization in domain notation and visual perception failures
that induce hallucinations. We also show that our results are largely robust to
visual transformations. SEAM establishes a controlled, semantically equivalent
setting for measuring and improving modality-agnostic reasoning.