Appear2Meaning: Un Punto de Referencia Intercultural para la Inferencia de Metadatos Culturales Estructurados a partir de Imágenes
Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images
April 8, 2026
Autores: Yuechen Jiang, Enze Zhang, Md Mohsinul Kabir, Qianqian Xie, Stavroula Golfomitsou, Konstantinos Arvanitis, Sophia Ananiadou
cs.AI
Resumen
Los recientes avances en los modelos de visión y lenguaje (VLM) han mejorado la generación de descripciones de imágenes para el patrimonio cultural. Sin embargo, la inferencia de metadatos culturales estructurados (por ejemplo, creador, origen, período) a partir de entradas visuales sigue siendo un área poco explorada. Presentamos un benchmark multicultural y de múltiples categorías para esta tarea y evaluamos los VLM utilizando un marco de LLM-como-Juez que mide la alineación semántica con anotaciones de referencia. Para evaluar el razonamiento cultural, reportamos precisión de coincidencia exacta, coincidencia parcial y a nivel de atributo en distintas regiones culturales. Los resultados muestran que los modelos capturan señales fragmentadas y exhiben una variación sustancial de rendimiento entre culturas y tipos de metadatos, lo que conduce a predicciones inconsistentes y débilmente fundamentadas. Estos hallazgos resaltan las limitaciones de los VLM actuales en la inferencia de metadatos culturales estructurados más allá de la percepción visual.
English
Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.