SEAM: Benchmark für semantische Äquivalenz über Modalitäten hinweg für Vision-Sprache-Modelle
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
August 25, 2025
papers.authors: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI
papers.abstract
Die Bewertung, ob Vision-Language-Modelle (VLMs) konsistent über verschiedene Repräsentationen hinweg schlussfolgern, ist eine Herausforderung, da Modalitätsvergleiche typischerweise durch Aufgabenunterschiede und asymmetrische Informationen verzerrt werden. Wir stellen SEAM vor, einen Benchmark, der semantisch äquivalente Eingaben über vier Domänen hinweg paarweise vergleicht, für die standardisierte textuelle und visuelle Notationen existieren. Durch die Verwendung unterschiedlicher Notationssysteme über Modalitäten hinweg – im Gegensatz zu OCR-basierten Bild-Text-Paarungen – bietet SEAM eine rigorose vergleichende Bewertung der textuell-symbolischen und visuell-räumlichen Schlussfolgerungsfähigkeiten von VLMs. Über 21 aktuelle Modelle hinweg beobachten wir ein systematisches Ungleichgewicht zwischen den Modalitäten: Die visuelle Modalität hinkt häufig der sprachlichen in der Gesamtleistung hinterher, obwohl die Probleme semantisch äquivalente Informationen enthalten, und die Übereinstimmung zwischen den Modalitäten ist relativ gering. Unsere Fehleranalyse zeigt zwei Hauptursachen auf: Textuelle Wahrnehmungsfehler aufgrund von Tokenisierung in der Domänennotation und visuelle Wahrnehmungsfehler, die Halluzinationen hervorrufen. Wir zeigen auch, dass unsere Ergebnisse weitgehend robust gegenüber visuellen Transformationen sind. SEAM schafft eine kontrollierte, semantisch äquivalente Umgebung zur Messung und Verbesserung modalitätsunabhängigen Schlussfolgerns.
English
Evaluating whether vision-language models (VLMs) reason consistently across
representations is challenging because modality comparisons are typically
confounded by task differences and asymmetric information. We introduce SEAM, a
benchmark that pairs semantically equivalent inputs across four domains that
have existing standardized textual and visual notations. By employing distinct
notation systems across modalities, in contrast to OCR-based image-text
pairing, SEAM provides a rigorous comparative assessment of the
textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21
contemporary models, we observe systematic modality imbalance: vision
frequently lags language in overall performance, despite the problems
containing semantically equivalent information, and cross-modal agreement is
relatively low. Our error analysis reveals two main drivers: textual perception
failures from tokenization in domain notation and visual perception failures
that induce hallucinations. We also show that our results are largely robust to
visual transformations. SEAM establishes a controlled, semantically equivalent
setting for measuring and improving modality-agnostic reasoning.