Hanfu-Bench:時空を超えた文化的理解と翻案のためのマルチモーダルベンチマーク
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
June 2, 2025
著者: Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
cs.AI
要旨
文化は地理と時間の両方にわたって進化する豊かでダイナミックな領域である。しかし、視覚言語モデル(VLM)を用いた文化理解に関する既存の研究は、主に地理的多様性を強調しており、重要な時間的次元を見落としがちである。このギャップを埋めるため、我々は専門家がキュレートした新しいマルチモーダルデータセットであるHanfu-Benchを導入する。漢服は、古代中国の王朝にわたる伝統的な衣装であり、中国文化の深い時間的側面を反映しつつ、現代中国社会で非常に人気のある代表的な文化遺産である。Hanfu-Benchは、文化的視覚理解と文化的画像変換という2つの核心的なタスクから構成される。前者のタスクは、単一または複数の画像入力に基づく時間的文化的特徴の認識を多肢選択式の視覚質問応答を通じて検証し、後者は伝統的な衣装を現代的なデザインに変換するために文化的要素の継承と現代的な文脈への適応に焦点を当てる。我々の評価によると、閉じたVLMは視覚的文化理解において非専門家と同等の性能を示すが、人間の専門家には10%及ばず、開いたVLMはさらに非専門家にも及ばない。変換タスクでは、多面的な人間評価により、最高性能のモデルでも成功率はわずか42%に留まることが示された。我々のベンチマークは、この新しい時間的文化理解と創造的適応の方向性における重要な課題を明らかにする必須のテストベッドを提供する。
English
Culture is a rich and dynamic domain that evolves across both geography and
time. However, existing studies on cultural understanding with vision-language
models (VLMs) primarily emphasize geographic diversity, often overlooking the
critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a
novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning
ancient Chinese dynasties, serves as a representative cultural heritage that
reflects the profound temporal aspects of Chinese culture while remaining
highly popular in Chinese contemporary society. Hanfu-Bench comprises two core
tasks: cultural visual understanding and cultural image transcreation.The
former task examines temporal-cultural feature recognition based on single- or
multi-image inputs through multiple-choice visual question answering, while the
latter focuses on transforming traditional attire into modern designs through
cultural element inheritance and modern context adaptation. Our evaluation
shows that closed VLMs perform comparably to non-experts on visual cutural
understanding but fall short by 10\% to human experts, while open VLMs lags
further behind non-experts. For the transcreation task, multi-faceted human
evaluation indicates that the best-performing model achieves a success rate of
only 42\%. Our benchmark provides an essential testbed, revealing significant
challenges in this new direction of temporal cultural understanding and
creative adaptation.