ChatPaper.aiChatPaper

Hanfu-Bench:時空を超えた文化的理解と翻案のためのマルチモーダルベンチマーク

Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

June 2, 2025
著者: Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
cs.AI

要旨

文化は地理と時間の両方にわたって進化する豊かでダイナミックな領域である。しかし、視覚言語モデル(VLM)を用いた文化理解に関する既存の研究は、主に地理的多様性を強調しており、重要な時間的次元を見落としがちである。このギャップを埋めるため、我々は専門家がキュレートした新しいマルチモーダルデータセットであるHanfu-Benchを導入する。漢服は、古代中国の王朝にわたる伝統的な衣装であり、中国文化の深い時間的側面を反映しつつ、現代中国社会で非常に人気のある代表的な文化遺産である。Hanfu-Benchは、文化的視覚理解と文化的画像変換という2つの核心的なタスクから構成される。前者のタスクは、単一または複数の画像入力に基づく時間的文化的特徴の認識を多肢選択式の視覚質問応答を通じて検証し、後者は伝統的な衣装を現代的なデザインに変換するために文化的要素の継承と現代的な文脈への適応に焦点を当てる。我々の評価によると、閉じたVLMは視覚的文化理解において非専門家と同等の性能を示すが、人間の専門家には10%及ばず、開いたVLMはさらに非専門家にも及ばない。変換タスクでは、多面的な人間評価により、最高性能のモデルでも成功率はわずか42%に留まることが示された。我々のベンチマークは、この新しい時間的文化理解と創造的適応の方向性における重要な課題を明らかにする必須のテストベッドを提供する。
English
Culture is a rich and dynamic domain that evolves across both geography and time. However, existing studies on cultural understanding with vision-language models (VLMs) primarily emphasize geographic diversity, often overlooking the critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning ancient Chinese dynasties, serves as a representative cultural heritage that reflects the profound temporal aspects of Chinese culture while remaining highly popular in Chinese contemporary society. Hanfu-Bench comprises two core tasks: cultural visual understanding and cultural image transcreation.The former task examines temporal-cultural feature recognition based on single- or multi-image inputs through multiple-choice visual question answering, while the latter focuses on transforming traditional attire into modern designs through cultural element inheritance and modern context adaptation. Our evaluation shows that closed VLMs perform comparably to non-experts on visual cutural understanding but fall short by 10\% to human experts, while open VLMs lags further behind non-experts. For the transcreation task, multi-faceted human evaluation indicates that the best-performing model achieves a success rate of only 42\%. Our benchmark provides an essential testbed, revealing significant challenges in this new direction of temporal cultural understanding and creative adaptation.
PDF32June 4, 2025