SEAM: Semantisch Equivalent Over Modaliteiten Benchmark voor Vision-Taalmodellen
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
August 25, 2025
Auteurs: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI
Samenvatting
Het evalueren of vision-language modellen (VLMs) consistent redeneren over verschillende representaties is uitdagend omdat vergelijkingen tussen modaliteiten doorgaans verward worden door taakverschillen en asymmetrische informatie. We introduceren SEAM, een benchmark die semantisch equivalente invoerparen biedt over vier domeinen die bestaande gestandaardiseerde tekstuele en visuele notaties hebben. Door het gebruik van verschillende notatiesystemen over modaliteiten heen, in tegenstelling tot OCR-gebaseerde beeld-tekstkoppelingen, biedt SEAM een rigoureuze vergelijkende beoordeling van de tekstueel-symbolische en visueel-ruimtelijke redeneervaardigheden van VLMs. Over 21 hedendaagse modellen heen observeren we een systematische onbalans tussen modaliteiten: visie loopt vaak achter op taal in algemene prestaties, ondanks het feit dat de problemen semantisch equivalente informatie bevatten, en de overeenstemming tussen modaliteiten is relatief laag. Onze foutenanalyse onthult twee hoofdredenen: tekstuele perceptiefouten door tokenisatie in domeinnotaties en visuele perceptiefouten die hallucinaties veroorzaken. We laten ook zien dat onze resultaten grotendeels robuust zijn voor visuele transformaties. SEAM creëert een gecontroleerde, semantisch equivalente omgeving voor het meten en verbeteren van modaliteitsagnostisch redeneren.
English
Evaluating whether vision-language models (VLMs) reason consistently across
representations is challenging because modality comparisons are typically
confounded by task differences and asymmetric information. We introduce SEAM, a
benchmark that pairs semantically equivalent inputs across four domains that
have existing standardized textual and visual notations. By employing distinct
notation systems across modalities, in contrast to OCR-based image-text
pairing, SEAM provides a rigorous comparative assessment of the
textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21
contemporary models, we observe systematic modality imbalance: vision
frequently lags language in overall performance, despite the problems
containing semantically equivalent information, and cross-modal agreement is
relatively low. Our error analysis reveals two main drivers: textual perception
failures from tokenization in domain notation and visual perception failures
that induce hallucinations. We also show that our results are largely robust to
visual transformations. SEAM establishes a controlled, semantically equivalent
setting for measuring and improving modality-agnostic reasoning.