Appear2Meaning: un benchmark interculturale per l'inferenza strutturata di metadati culturali da immagini

Abstract

I recenti progressi nei modelli visione-linguaggio (VLM) hanno migliorato la descrizione automatica di immagini per il patrimonio culturale. Tuttavia, l'inferenza di metadati culturali strutturati (ad esempio, creatore, origine, periodo) dagli input visivi rimane poco esplorata. Introduciamo un benchmark multicategoria e cross-culturale per questo compito e valutiamo i VLM utilizzando un framework LLM-as-Judge che misura l'allineamento semantico con le annotazioni di riferimento. Per valutare il ragionamento culturale, riportiamo accuratezza di corrispondenza esatta, corrispondenza parziale e a livello di attributo tra le regioni culturali. I risultati mostrano che i modelli catturano segnali frammentati ed evidenziano una variazione prestazionale sostanziale tra culture e tipi di metadati, portando a previsioni inconsistenti e debolmente fondate. Questi risultati evidenziano le limitazioni degli attuali VLM nell'inferenza di metadati culturali strutturati al di là della percezione visiva.

English

Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.

Appear2Meaning: un benchmark interculturale per l'inferenza strutturata di metadati culturali da immagini

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Abstract

Support