SEAM : Benchmark d'Équivalence Sémantique à Travers les Modalités pour les Modèles Vision-Langage

papers.abstract

Évaluer si les modèles vision-langage (VLMs) raisonnent de manière cohérente à travers différentes représentations est un défi, car les comparaisons entre modalités sont généralement biaisées par des différences de tâches et des informations asymétriques. Nous introduisons SEAM, un benchmark qui associe des entrées sémantiquement équivalentes à travers quatre domaines disposant de notations textuelles et visuelles standardisées. En utilisant des systèmes de notation distincts entre les modalités, contrairement à l'appariement image-texte basé sur la reconnaissance optique de caractères (OCR), SEAM offre une évaluation comparative rigoureuse des capacités de raisonnement textuel-symbolique et visuel-spatial des VLMs. Sur 21 modèles contemporains, nous observons un déséquilibre systématique entre les modalités : la vision est souvent en retard par rapport au langage en termes de performance globale, malgré des problèmes contenant des informations sémantiquement équivalentes, et l'accord intermodal est relativement faible. Notre analyse des erreurs révèle deux principaux facteurs : des échecs de perception textuelle dus à la tokenisation dans la notation du domaine et des échecs de perception visuelle qui induisent des hallucinations. Nous montrons également que nos résultats sont largement robustes aux transformations visuelles. SEAM établit un cadre contrôlé et sémantiquement équivalent pour mesurer et améliorer le raisonnement indépendant des modalités.

English

Evaluating whether vision-language models (VLMs) reason consistently across representations is challenging because modality comparisons are typically confounded by task differences and asymmetric information. We introduce SEAM, a benchmark that pairs semantically equivalent inputs across four domains that have existing standardized textual and visual notations. By employing distinct notation systems across modalities, in contrast to OCR-based image-text pairing, SEAM provides a rigorous comparative assessment of the textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21 contemporary models, we observe systematic modality imbalance: vision frequently lags language in overall performance, despite the problems containing semantically equivalent information, and cross-modal agreement is relatively low. Our error analysis reveals two main drivers: textual perception failures from tokenization in domain notation and visual perception failures that induce hallucinations. We also show that our results are largely robust to visual transformations. SEAM establishes a controlled, semantically equivalent setting for measuring and improving modality-agnostic reasoning.

SEAM : Benchmark d'Équivalence Sémantique à Travers les Modalités pour les Modèles Vision-Langage

SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models

papers.abstract

Support