Appear2Meaning : Un référentiel interculturel pour l'inférence de métadonnées culturelles structurées à partir d'images

Résumé

Les progrès récents des modèles vision-langage (VLM) ont amélioré la description d'images pour le patrimoine culturel. Cependant, l'inférence de métadonnées culturelles structurées (par exemple, créateur, origine, période) à partir d'entrées visuelles reste peu explorée. Nous présentons un benchmark multicatégoriel et interculturel pour cette tâche et évaluons les VLM à l'aide d'un cadre LLM-comme-Juge qui mesure l'alignement sémantique avec des annotations de référence. Pour évaluer le raisonnement culturel, nous rapportons la précision par correspondance exacte, correspondance partielle et au niveau des attributs entre les régions culturelles. Les résultats montrent que les modèles capturent des signaux fragmentés et présentent des variations de performance substantielles selon les cultures et les types de métadonnées, conduisant à des prédictions incohérentes et faiblement fondées. Ces résultats soulignent les limites des VLM actuels dans l'inférence de métadonnées culturelles structurées au-delà de la perception visuelle.

English

Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.

Appear2Meaning : Un référentiel interculturel pour l'inférence de métadonnées culturelles structurées à partir d'images

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Résumé

Support