Appear2Meaning: Eine interkulturelle Vergleichsgrundlage zur Erschließung strukturierter kultureller Metadaten aus Bildern

Zusammenfassung

Jüngste Fortschritte bei Vision-Language-Modellen (VLMs) haben die Bildbeschreibung für das kulturelle Erbe verbessert. Die Ableitung strukturierter kultureller Metadaten (z. B. Urheber, Herkunft, Epoche) aus visuellen Eingaben ist jedoch nach wie vor wenig erforscht. Wir stellen einen multikategorialen, cross-kulturellen Benchmark für diese Aufgabe vor und evaluieren VLMs mit einem LLM-as-Judge-Framework, das die semantische Übereinstimmung mit Referenzannotationen misst. Um das kulturelle Reasoning zu bewerten, erfassen wir Exact-Match-, Partial-Match- und Attribute-Level-Genauigkeit über kulturelle Regionen hinweg. Die Ergebnisse zeigen, dass Modelle fragmentierte Signale erfassen und erhebliche Leistungsunterschiede zwischen Kulturen und Metadatentypen aufweisen, was zu inkonsistenten und schwach fundierten Vorhersagen führt. Diese Erkenntnisse unterstreichen die Grenzen aktueller VLMs bei der Inferenz strukturierter kultureller Metadaten, die über die reine visuelle Wahrnehmung hinausgeht.

English

Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.

Appear2Meaning: Eine interkulturelle Vergleichsgrundlage zur Erschließung strukturierter kultureller Metadaten aus Bildern

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Zusammenfassung

Support