Appear2Meaning: Um Benchmark Intercultural para Inferência Estruturada de Metadados Culturais a partir de Imagens
Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images
April 8, 2026
Autores: Yuechen Jiang, Enze Zhang, Md Mohsinul Kabir, Qianqian Xie, Stavroula Golfomitsou, Konstantinos Arvanitis, Sophia Ananiadou
cs.AI
Resumo
Avanços recentes em modelos visão-linguagem (VLMs) têm aprimorado a descrição de imagens para o património cultural. No entanto, a inferência de metadados culturais estruturados (por exemplo, criador, origem, período) a partir de entrada visual permanece pouco explorada. Apresentamos uma referência de avaliação multicultural e multicategoria para esta tarefa e avaliamos VLMs usando uma estrutura LLM-como-Juiz que mede o alinhamento semântico com anotações de referência. Para avaliar o raciocínio cultural, relatamos precisão de correspondência exata, correspondência parcial e a nível de atributo entre regiões culturais. Os resultados mostram que os modelos capturam sinais fragmentados e exibem variação substancial de desempenho entre culturas e tipos de metadados, levando a previsões inconsistentes e pouco fundamentadas. Estas descobertas destacam as limitações dos VLMs atuais na inferência de metadados culturais estruturados para além da perceção visual.
English
Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.