ChatPaper.aiChatPaper

SEAM: Semantisch Equivalent Over Modaliteiten Benchmark voor Vision-Taalmodellen

SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models

August 25, 2025
Auteurs: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI

Samenvatting

Het evalueren of vision-language modellen (VLMs) consistent redeneren over verschillende representaties is uitdagend omdat vergelijkingen tussen modaliteiten doorgaans verward worden door taakverschillen en asymmetrische informatie. We introduceren SEAM, een benchmark die semantisch equivalente invoerparen biedt over vier domeinen die bestaande gestandaardiseerde tekstuele en visuele notaties hebben. Door het gebruik van verschillende notatiesystemen over modaliteiten heen, in tegenstelling tot OCR-gebaseerde beeld-tekstkoppelingen, biedt SEAM een rigoureuze vergelijkende beoordeling van de tekstueel-symbolische en visueel-ruimtelijke redeneervaardigheden van VLMs. Over 21 hedendaagse modellen heen observeren we een systematische onbalans tussen modaliteiten: visie loopt vaak achter op taal in algemene prestaties, ondanks het feit dat de problemen semantisch equivalente informatie bevatten, en de overeenstemming tussen modaliteiten is relatief laag. Onze foutenanalyse onthult twee hoofdredenen: tekstuele perceptiefouten door tokenisatie in domeinnotaties en visuele perceptiefouten die hallucinaties veroorzaken. We laten ook zien dat onze resultaten grotendeels robuust zijn voor visuele transformaties. SEAM creëert een gecontroleerde, semantisch equivalente omgeving voor het meten en verbeteren van modaliteitsagnostisch redeneren.
English
Evaluating whether vision-language models (VLMs) reason consistently across representations is challenging because modality comparisons are typically confounded by task differences and asymmetric information. We introduce SEAM, a benchmark that pairs semantically equivalent inputs across four domains that have existing standardized textual and visual notations. By employing distinct notation systems across modalities, in contrast to OCR-based image-text pairing, SEAM provides a rigorous comparative assessment of the textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21 contemporary models, we observe systematic modality imbalance: vision frequently lags language in overall performance, despite the problems containing semantically equivalent information, and cross-modal agreement is relatively low. Our error analysis reveals two main drivers: textual perception failures from tokenization in domain notation and visual perception failures that induce hallucinations. We also show that our results are largely robust to visual transformations. SEAM establishes a controlled, semantically equivalent setting for measuring and improving modality-agnostic reasoning.
PDF92August 28, 2025