SEAM: Benchmark per Modelli Visione-Linguaggio su Equivalenza Semantica Attraverso le Modalità
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
August 25, 2025
Autori: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI
Abstract
Valutare se i modelli visione-linguaggio (VLMs) ragionano in modo coerente attraverso le rappresentazioni è impegnativo perché i confronti tra modalità sono tipicamente confusi da differenze nei compiti e da informazioni asimmetriche. Introduciamo SEAM, un benchmark che accoppia input semanticamente equivalenti in quattro domini che dispongono di notazioni testuali e visive standardizzate. Utilizzando sistemi di notazione distinti tra le modalità, in contrasto con l'abbinamento immagine-testo basato su OCR, SEAM fornisce una valutazione comparativa rigorosa delle capacità di ragionamento testuale-simbolico e visivo-spaziale dei VLMs. Su 21 modelli contemporanei, osserviamo uno squilibrio sistematico tra le modalità: la visione spesso è in ritardo rispetto al linguaggio in termini di prestazioni complessive, nonostante i problemi contengano informazioni semanticamente equivalenti, e l'accordo cross-modale è relativamente basso. La nostra analisi degli errori rivela due principali cause: fallimenti nella percezione testuale dovuti alla tokenizzazione nella notazione di dominio e fallimenti nella percezione visiva che inducono allucinazioni. Mostriamo inoltre che i nostri risultati sono in gran parte robusti rispetto alle trasformazioni visive. SEAM stabilisce un contesto controllato e semanticamente equivalente per misurare e migliorare il ragionamento indipendente dalla modalità.
English
Evaluating whether vision-language models (VLMs) reason consistently across
representations is challenging because modality comparisons are typically
confounded by task differences and asymmetric information. We introduce SEAM, a
benchmark that pairs semantically equivalent inputs across four domains that
have existing standardized textual and visual notations. By employing distinct
notation systems across modalities, in contrast to OCR-based image-text
pairing, SEAM provides a rigorous comparative assessment of the
textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21
contemporary models, we observe systematic modality imbalance: vision
frequently lags language in overall performance, despite the problems
containing semantically equivalent information, and cross-modal agreement is
relatively low. Our error analysis reveals two main drivers: textual perception
failures from tokenization in domain notation and visual perception failures
that induce hallucinations. We also show that our results are largely robust to
visual transformations. SEAM establishes a controlled, semantically equivalent
setting for measuring and improving modality-agnostic reasoning.