Hanfu-Bench: Un Benchmark Multimodale sulla Comprensione Culturale Trans-Temporale e la Transcreazione

Abstract

La cultura è un dominio ricco e dinamico che si evolve sia nello spazio che nel tempo. Tuttavia, gli studi esistenti sulla comprensione culturale con modelli visione-linguaggio (VLMs) si concentrano principalmente sulla diversità geografica, spesso trascurando le cruciali dimensioni temporali. Per colmare questa lacuna, introduciamo Hanfu-Bench, un nuovo dataset multimodale curato da esperti. L'Hanfu, un abito tradizionale che attraversa le antiche dinastie cinesi, rappresenta un patrimonio culturale emblematico che riflette gli aspetti temporali profondi della cultura cinese, pur rimanendo estremamente popolare nella società contemporanea cinese. Hanfu-Bench comprende due compiti principali: la comprensione visiva culturale e la transcrazione culturale di immagini. Il primo compito esamina il riconoscimento di caratteristiche culturali temporali basato su input di immagini singole o multiple attraverso risposte a domande a scelta multipla, mentre il secondo si concentra sulla trasformazione di abiti tradizionali in design moderni attraverso l'eredità di elementi culturali e l'adattamento al contesto moderno. La nostra valutazione mostra che i VLMs chiusi performano in modo comparabile ai non esperti nella comprensione visiva culturale, ma rimangono inferiori del 10% rispetto agli esperti umani, mentre i VLMs aperti sono ulteriormente indietro rispetto ai non esperti. Per il compito di transcrazione, una valutazione umana multidimensionale indica che il modello con le migliori prestazioni raggiunge un tasso di successo di appena il 42%. Il nostro benchmark fornisce un banco di prova essenziale, rivelando sfide significative in questa nuova direzione della comprensione culturale temporale e dell'adattamento creativo.

English

Culture is a rich and dynamic domain that evolves across both geography and time. However, existing studies on cultural understanding with vision-language models (VLMs) primarily emphasize geographic diversity, often overlooking the critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning ancient Chinese dynasties, serves as a representative cultural heritage that reflects the profound temporal aspects of Chinese culture while remaining highly popular in Chinese contemporary society. Hanfu-Bench comprises two core tasks: cultural visual understanding and cultural image transcreation.The former task examines temporal-cultural feature recognition based on single- or multi-image inputs through multiple-choice visual question answering, while the latter focuses on transforming traditional attire into modern designs through cultural element inheritance and modern context adaptation. Our evaluation shows that closed VLMs perform comparably to non-experts on visual cutural understanding but fall short by 10\% to human experts, while open VLMs lags further behind non-experts. For the transcreation task, multi-faceted human evaluation indicates that the best-performing model achieves a success rate of only 42\%. Our benchmark provides an essential testbed, revealing significant challenges in this new direction of temporal cultural understanding and creative adaptation.

Hanfu-Bench: Un Benchmark Multimodale sulla Comprensione Culturale Trans-Temporale e la Transcreazione

Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

Abstract

Support