한푸-벤치: 시공간적 문화 이해와 창조적 변용을 위한 다중모달 벤치마크
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
June 2, 2025
저자: Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
cs.AI
초록
문화는 지리적, 시간적 차원을 가로지르며 진화하는 풍부하고 역동적인 영역이다. 그러나 시각-언어 모델(VLMs)을 활용한 문화 이해에 관한 기존 연구들은 주로 지리적 다양성에 초점을 맞추며, 중요한 시간적 차원을 간과하는 경향이 있다. 이러한 격차를 해소하기 위해, 우리는 전문가가 선별한 새로운 멀티모달 데이터셋인 한푸-벤치(Hanfu-Bench)를 소개한다. 한푸는 중국 고대 왕조를 아우르는 전통 의상으로, 중국 문화의 심오한 시간적 측면을 반영하면서도 현대 중국 사회에서 여전히 높은 인기를 누리고 있는 대표적인 문화 유산이다. 한푸-벤치는 문화적 시각 이해와 문화적 이미지 변형이라는 두 가지 핵심 과제로 구성된다. 전자의 과제는 단일 또는 다중 이미지 입력을 기반으로 한 객관식 시각 질의응답을 통해 시간적-문화적 특징 인식을 검토하며, 후자의 과제는 전통 의상을 현대적 디자인으로 변형하는 데 초점을 맞추어 문화적 요소의 계승과 현대적 맥락의 적응을 다룬다. 평가 결과, 폐쇄형 VLMs는 시각적 문화 이해에서 비전문가와 비슷한 성능을 보이지만 인간 전문가에 비해 10% 뒤처지는 반면, 개방형 VLMs는 비전문가보다 더 뒤처지는 것으로 나타났다. 변형 과제의 경우, 다각적인 인간 평가를 통해 가장 성능이 우수한 모델도 성공률이 42%에 불과한 것으로 확인되었다. 우리의 벤치마크는 이 새로운 시간적 문화 이해와 창의적 적응 방향에서의 상당한 도전 과제를 드러내며, 필수적인 테스트베드를 제공한다.
English
Culture is a rich and dynamic domain that evolves across both geography and
time. However, existing studies on cultural understanding with vision-language
models (VLMs) primarily emphasize geographic diversity, often overlooking the
critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a
novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning
ancient Chinese dynasties, serves as a representative cultural heritage that
reflects the profound temporal aspects of Chinese culture while remaining
highly popular in Chinese contemporary society. Hanfu-Bench comprises two core
tasks: cultural visual understanding and cultural image transcreation.The
former task examines temporal-cultural feature recognition based on single- or
multi-image inputs through multiple-choice visual question answering, while the
latter focuses on transforming traditional attire into modern designs through
cultural element inheritance and modern context adaptation. Our evaluation
shows that closed VLMs perform comparably to non-experts on visual cutural
understanding but fall short by 10\% to human experts, while open VLMs lags
further behind non-experts. For the transcreation task, multi-faceted human
evaluation indicates that the best-performing model achieves a success rate of
only 42\%. Our benchmark provides an essential testbed, revealing significant
challenges in this new direction of temporal cultural understanding and
creative adaptation.