Hanfu-Bench: Мультимодальный бенчмарк для кросс-временного культурного понимания и трансформации

Аннотация

Культура представляет собой богатую и динамичную область, которая развивается как в географическом, так и во временном аспектах. Однако существующие исследования по культурному пониманию с использованием моделей "визуальный язык" (VLMs) в основном акцентируют внимание на географическом разнообразии, часто упуская из виду важные временные измерения. Чтобы заполнить этот пробел, мы представляем Hanfu-Bench — новый, экспертно-курируемый мультимодальный набор данных. Ханьфу, традиционный наряд, охватывающий древние китайские династии, служит репрезентативным культурным наследием, отражающим глубокие временные аспекты китайской культуры, оставаясь при этом чрезвычайно популярным в современном китайском обществе. Hanfu-Bench включает две основные задачи: культурное визуальное понимание и культурную трансформацию изображений. Первая задача исследует распознавание временно-культурных особенностей на основе одного или нескольких изображений через визуальные вопросы с множественным выбором, тогда как вторая сосредоточена на преобразовании традиционного наряда в современные дизайны через наследование культурных элементов и адаптацию к современному контексту. Наша оценка показывает, что закрытые VLMs справляются с задачей визуального культурного понимания на уровне, сопоставимом с неэкспертами, но отстают на 10% от экспертов, в то время как открытые VLMs отстают еще больше. Для задачи трансформации многоаспектная человеческая оценка указывает, что лучшая модель достигает успеха только в 42% случаев. Наш бенчмарк предоставляет важный тестовый стенд, выявляя значительные вызовы в этом новом направлении временного культурного понимания и творческой адаптации.

English

Culture is a rich and dynamic domain that evolves across both geography and time. However, existing studies on cultural understanding with vision-language models (VLMs) primarily emphasize geographic diversity, often overlooking the critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning ancient Chinese dynasties, serves as a representative cultural heritage that reflects the profound temporal aspects of Chinese culture while remaining highly popular in Chinese contemporary society. Hanfu-Bench comprises two core tasks: cultural visual understanding and cultural image transcreation.The former task examines temporal-cultural feature recognition based on single- or multi-image inputs through multiple-choice visual question answering, while the latter focuses on transforming traditional attire into modern designs through cultural element inheritance and modern context adaptation. Our evaluation shows that closed VLMs perform comparably to non-experts on visual cutural understanding but fall short by 10\% to human experts, while open VLMs lags further behind non-experts. For the transcreation task, multi-faceted human evaluation indicates that the best-performing model achieves a success rate of only 42\%. Our benchmark provides an essential testbed, revealing significant challenges in this new direction of temporal cultural understanding and creative adaptation.