SEAM: Benchmark de Equivalência Semântica entre Modalidades para Modelos de Visão e Linguagem
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
August 25, 2025
Autores: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI
Resumo
Avaliar se os modelos de visão e linguagem (VLMs) raciocinam de forma consistente entre representações é desafiador porque as comparações entre modalidades são tipicamente confundidas por diferenças de tarefas e informações assimétricas. Apresentamos o SEAM, um benchmark que emparelha entradas semanticamente equivalentes em quatro domínios que possuem notações textuais e visuais padronizadas existentes. Ao empregar sistemas de notação distintos entre modalidades, em contraste com o emparelhamento de imagem-texto baseado em OCR, o SEAM fornece uma avaliação comparativa rigorosa das capacidades de raciocínio textual-simbólico e visual-espacial dos VLMs. Em 21 modelos contemporâneos, observamos um desequilíbrio sistemático entre modalidades: a visão frequentemente fica atrás da linguagem no desempenho geral, apesar dos problemas conterem informações semanticamente equivalentes, e a concordância entre modalidades é relativamente baixa. Nossa análise de erros revela dois principais fatores: falhas de percepção textual devido à tokenização na notação do domínio e falhas de percepção visual que induzem alucinações. Também mostramos que nossos resultados são amplamente robustos a transformações visuais. O SEAM estabelece um ambiente controlado e semanticamente equivalente para medir e melhorar o raciocínio independente de modalidade.
English
Evaluating whether vision-language models (VLMs) reason consistently across
representations is challenging because modality comparisons are typically
confounded by task differences and asymmetric information. We introduce SEAM, a
benchmark that pairs semantically equivalent inputs across four domains that
have existing standardized textual and visual notations. By employing distinct
notation systems across modalities, in contrast to OCR-based image-text
pairing, SEAM provides a rigorous comparative assessment of the
textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21
contemporary models, we observe systematic modality imbalance: vision
frequently lags language in overall performance, despite the problems
containing semantically equivalent information, and cross-modal agreement is
relatively low. Our error analysis reveals two main drivers: textual perception
failures from tokenization in domain notation and visual perception failures
that induce hallucinations. We also show that our results are largely robust to
visual transformations. SEAM establishes a controlled, semantically equivalent
setting for measuring and improving modality-agnostic reasoning.