Appear2Meaning: Een interculturele benchmark voor gestructureerde culturele metadata-afleiding uit afbeeldingen
Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images
April 8, 2026
Auteurs: Yuechen Jiang, Enze Zhang, Md Mohsinul Kabir, Qianqian Xie, Stavroula Golfomitsou, Konstantinos Arvanitis, Sophia Ananiadou
cs.AI
Samenvatting
Recente vooruitgang in vision-language modellen (VLM's) heeft beeldbeschrijving voor cultureel erfgoed verbeterd. Het afleiden van gestructureerde culturele metadata (bijvoorbeeld maker, herkomst, periode) uit visuele input blijft echter onderbelicht. Wij introduceren een multicategorie, cross-culturele benchmark voor deze taak en evalueren VLM's met een LLM-as-Judge raamwerk dat de semantische alignering met referentieannotaties meet. Om cultureel redeneren te beoordelen, rapporteren we exacte-overeenkomst, gedeeltelijke-overeenkomst en attribuutnauwkeurigheid over culturele regio's heen. Resultaten tonen aan dat modellen gefragmenteerde signalen oppikken en aanzienlijke prestatievariatie vertonen tussen culturen en metadatatypes, wat leidt tot inconsistente en zwak onderbouwde voorspellingen. Deze bevindingen benadrukken de beperkingen van huidige VLM's bij het afleiden van gestructureerde culturele metadata voorbij de visuele perceptie.
English
Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.