Hanfu-Bench: Мультимодальный бенчмарк для кросс-временного культурного понимания и трансформации
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
June 2, 2025
Авторы: Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
cs.AI
Аннотация
Культура представляет собой богатую и динамичную область, которая развивается как в географическом, так и во временном аспектах. Однако существующие исследования по культурному пониманию с использованием моделей "визуальный язык" (VLMs) в основном акцентируют внимание на географическом разнообразии, часто упуская из виду важные временные измерения. Чтобы заполнить этот пробел, мы представляем Hanfu-Bench — новый, экспертно-курируемый мультимодальный набор данных. Ханьфу, традиционный наряд, охватывающий древние китайские династии, служит репрезентативным культурным наследием, отражающим глубокие временные аспекты китайской культуры, оставаясь при этом чрезвычайно популярным в современном китайском обществе. Hanfu-Bench включает две основные задачи: культурное визуальное понимание и культурную трансформацию изображений. Первая задача исследует распознавание временно-культурных особенностей на основе одного или нескольких изображений через визуальные вопросы с множественным выбором, тогда как вторая сосредоточена на преобразовании традиционного наряда в современные дизайны через наследование культурных элементов и адаптацию к современному контексту. Наша оценка показывает, что закрытые VLMs справляются с задачей визуального культурного понимания на уровне, сопоставимом с неэкспертами, но отстают на 10% от экспертов, в то время как открытые VLMs отстают еще больше. Для задачи трансформации многоаспектная человеческая оценка указывает, что лучшая модель достигает успеха только в 42% случаев. Наш бенчмарк предоставляет важный тестовый стенд, выявляя значительные вызовы в этом новом направлении временного культурного понимания и творческой адаптации.
English
Culture is a rich and dynamic domain that evolves across both geography and
time. However, existing studies on cultural understanding with vision-language
models (VLMs) primarily emphasize geographic diversity, often overlooking the
critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a
novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning
ancient Chinese dynasties, serves as a representative cultural heritage that
reflects the profound temporal aspects of Chinese culture while remaining
highly popular in Chinese contemporary society. Hanfu-Bench comprises two core
tasks: cultural visual understanding and cultural image transcreation.The
former task examines temporal-cultural feature recognition based on single- or
multi-image inputs through multiple-choice visual question answering, while the
latter focuses on transforming traditional attire into modern designs through
cultural element inheritance and modern context adaptation. Our evaluation
shows that closed VLMs perform comparably to non-experts on visual cutural
understanding but fall short by 10\% to human experts, while open VLMs lags
further behind non-experts. For the transcreation task, multi-faceted human
evaluation indicates that the best-performing model achieves a success rate of
only 42\%. Our benchmark provides an essential testbed, revealing significant
challenges in this new direction of temporal cultural understanding and
creative adaptation.