SEAM: Бенчмарк семантической эквивалентности между модальностями для моделей зрения и языка
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
August 25, 2025
Авторы: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI
Аннотация
Оценка того, насколько последовательно модели, работающие с визуальными и языковыми данными (VLMs), рассуждают в различных представлениях, является сложной задачей, поскольку сравнение модальностей обычно осложняется различиями в задачах и асимметрией информации. Мы представляем SEAM — эталонный набор данных, который объединяет семантически эквивалентные входные данные в четырех областях, где существуют стандартизированные текстовые и визуальные обозначения. Используя различные системы обозначений для разных модальностей, в отличие от пар изображение-текст, основанных на OCR, SEAM обеспечивает строгую сравнительную оценку текстово-символических и визуально-пространственных способностей VLMs. На примере 21 современной модели мы наблюдаем систематический дисбаланс модальностей: визуальное восприятие часто отстает от языкового по общей производительности, несмотря на то, что задачи содержат семантически эквивалентную информацию, а согласованность между модальностями относительно низка. Наш анализ ошибок выявляет две основные причины: сбои в восприятии текста из-за токенизации в обозначениях области и сбои в визуальном восприятии, вызывающие галлюцинации. Мы также показываем, что наши результаты в значительной степени устойчивы к визуальным преобразованиям. SEAM создает контролируемую, семантически эквивалентную среду для измерения и улучшения модально-независимого рассуждения.
English
Evaluating whether vision-language models (VLMs) reason consistently across
representations is challenging because modality comparisons are typically
confounded by task differences and asymmetric information. We introduce SEAM, a
benchmark that pairs semantically equivalent inputs across four domains that
have existing standardized textual and visual notations. By employing distinct
notation systems across modalities, in contrast to OCR-based image-text
pairing, SEAM provides a rigorous comparative assessment of the
textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21
contemporary models, we observe systematic modality imbalance: vision
frequently lags language in overall performance, despite the problems
containing semantically equivalent information, and cross-modal agreement is
relatively low. Our error analysis reveals two main drivers: textual perception
failures from tokenization in domain notation and visual perception failures
that induce hallucinations. We also show that our results are largely robust to
visual transformations. SEAM establishes a controlled, semantically equivalent
setting for measuring and improving modality-agnostic reasoning.