Appear2Meaning: Кросс-культурный бенчмарк для вывода структурированных культурных метаданных из изображений
Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images
April 8, 2026
Авторы: Yuechen Jiang, Enze Zhang, Md Mohsinul Kabir, Qianqian Xie, Stavroula Golfomitsou, Konstantinos Arvanitis, Sophia Ananiadou
cs.AI
Аннотация
Последние достижения в области визуально-языковых моделей (VLM) улучшили генерацию описаний к изображениям в сфере культурного наследия. Однако задача вывода структурированных культурных метаданных (например, создатель, происхождение, период) из визуального контента остаётся малоизученной. Мы представляем многокатегориальный кросс-культурный бенчмарк для этой задачи и оцениваем VLM с использованием схемы LLM-as-Judge, которая измеряет семантическое соответствие эталонным аннотациям. Для оценки культурного понимания мы фиксируем показатели точного совпадения, частичного совпадения и атрибутивной точности по различным культурным регионам. Результаты показывают, что модели улавливают фрагментированные сигналы и демонстрируют значительные колебания производительности между культурами и типами метаданных, что приводит к непоследовательным и слабо обоснованным прогнозам. Эти выводы подчеркивают ограничения современных VLM в выводе структурированных культурных метаданных, выходящем за рамки визуального восприятия.
English
Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.