Hanfu-Bench: Un Benchmark Multimodale sulla Comprensione Culturale Trans-Temporale e la Transcreazione
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
June 2, 2025
Autori: Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
cs.AI
Abstract
La cultura è un dominio ricco e dinamico che si evolve sia nello spazio che nel tempo. Tuttavia, gli studi esistenti sulla comprensione culturale con modelli visione-linguaggio (VLMs) si concentrano principalmente sulla diversità geografica, spesso trascurando le cruciali dimensioni temporali. Per colmare questa lacuna, introduciamo Hanfu-Bench, un nuovo dataset multimodale curato da esperti. L'Hanfu, un abito tradizionale che attraversa le antiche dinastie cinesi, rappresenta un patrimonio culturale emblematico che riflette gli aspetti temporali profondi della cultura cinese, pur rimanendo estremamente popolare nella società contemporanea cinese. Hanfu-Bench comprende due compiti principali: la comprensione visiva culturale e la transcrazione culturale di immagini. Il primo compito esamina il riconoscimento di caratteristiche culturali temporali basato su input di immagini singole o multiple attraverso risposte a domande a scelta multipla, mentre il secondo si concentra sulla trasformazione di abiti tradizionali in design moderni attraverso l'eredità di elementi culturali e l'adattamento al contesto moderno. La nostra valutazione mostra che i VLMs chiusi performano in modo comparabile ai non esperti nella comprensione visiva culturale, ma rimangono inferiori del 10% rispetto agli esperti umani, mentre i VLMs aperti sono ulteriormente indietro rispetto ai non esperti. Per il compito di transcrazione, una valutazione umana multidimensionale indica che il modello con le migliori prestazioni raggiunge un tasso di successo di appena il 42%. Il nostro benchmark fornisce un banco di prova essenziale, rivelando sfide significative in questa nuova direzione della comprensione culturale temporale e dell'adattamento creativo.
English
Culture is a rich and dynamic domain that evolves across both geography and
time. However, existing studies on cultural understanding with vision-language
models (VLMs) primarily emphasize geographic diversity, often overlooking the
critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a
novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning
ancient Chinese dynasties, serves as a representative cultural heritage that
reflects the profound temporal aspects of Chinese culture while remaining
highly popular in Chinese contemporary society. Hanfu-Bench comprises two core
tasks: cultural visual understanding and cultural image transcreation.The
former task examines temporal-cultural feature recognition based on single- or
multi-image inputs through multiple-choice visual question answering, while the
latter focuses on transforming traditional attire into modern designs through
cultural element inheritance and modern context adaptation. Our evaluation
shows that closed VLMs perform comparably to non-experts on visual cutural
understanding but fall short by 10\% to human experts, while open VLMs lags
further behind non-experts. For the transcreation task, multi-faceted human
evaluation indicates that the best-performing model achieves a success rate of
only 42\%. Our benchmark provides an essential testbed, revealing significant
challenges in this new direction of temporal cultural understanding and
creative adaptation.