SEAM: Benchmark per Modelli Visione-Linguaggio su Equivalenza Semantica Attraverso le Modalità

Abstract

Valutare se i modelli visione-linguaggio (VLMs) ragionano in modo coerente attraverso le rappresentazioni è impegnativo perché i confronti tra modalità sono tipicamente confusi da differenze nei compiti e da informazioni asimmetriche. Introduciamo SEAM, un benchmark che accoppia input semanticamente equivalenti in quattro domini che dispongono di notazioni testuali e visive standardizzate. Utilizzando sistemi di notazione distinti tra le modalità, in contrasto con l'abbinamento immagine-testo basato su OCR, SEAM fornisce una valutazione comparativa rigorosa delle capacità di ragionamento testuale-simbolico e visivo-spaziale dei VLMs. Su 21 modelli contemporanei, osserviamo uno squilibrio sistematico tra le modalità: la visione spesso è in ritardo rispetto al linguaggio in termini di prestazioni complessive, nonostante i problemi contengano informazioni semanticamente equivalenti, e l'accordo cross-modale è relativamente basso. La nostra analisi degli errori rivela due principali cause: fallimenti nella percezione testuale dovuti alla tokenizzazione nella notazione di dominio e fallimenti nella percezione visiva che inducono allucinazioni. Mostriamo inoltre che i nostri risultati sono in gran parte robusti rispetto alle trasformazioni visive. SEAM stabilisce un contesto controllato e semanticamente equivalente per misurare e migliorare il ragionamento indipendente dalla modalità.

English

Evaluating whether vision-language models (VLMs) reason consistently across representations is challenging because modality comparisons are typically confounded by task differences and asymmetric information. We introduce SEAM, a benchmark that pairs semantically equivalent inputs across four domains that have existing standardized textual and visual notations. By employing distinct notation systems across modalities, in contrast to OCR-based image-text pairing, SEAM provides a rigorous comparative assessment of the textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21 contemporary models, we observe systematic modality imbalance: vision frequently lags language in overall performance, despite the problems containing semantically equivalent information, and cross-modal agreement is relatively low. Our error analysis reveals two main drivers: textual perception failures from tokenization in domain notation and visual perception failures that induce hallucinations. We also show that our results are largely robust to visual transformations. SEAM establishes a controlled, semantically equivalent setting for measuring and improving modality-agnostic reasoning.

SEAM: Benchmark per Modelli Visione-Linguaggio su Equivalenza Semantica Attraverso le Modalità

SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models

Abstract

Support