Hanfu-Bench: Un punto de referencia multimodal para la comprensión y transcreación cultural a través del tiempo
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
June 2, 2025
Autores: Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
cs.AI
Resumen
La cultura es un dominio rico y dinámico que evoluciona tanto en la geografía como en el tiempo. Sin embargo, los estudios existentes sobre la comprensión cultural con modelos de visión y lenguaje (VLMs) se centran principalmente en la diversidad geográfica, pasando por alto las dimensiones temporales críticas. Para cerrar esta brecha, presentamos Hanfu-Bench, un novedoso conjunto de datos multimodal curado por expertos. El Hanfu, una vestimenta tradicional que abarca las antiguas dinastías chinas, sirve como un patrimonio cultural representativo que refleja los profundos aspectos temporales de la cultura china, al mismo tiempo que sigue siendo muy popular en la sociedad contemporánea china. Hanfu-Bench consta de dos tareas principales: comprensión visual cultural y transcreación de imágenes culturales. La primera tarea examina el reconocimiento de características culturales temporales basado en entradas de una o varias imágenes a través de preguntas de opción múltiple con respuestas visuales, mientras que la segunda se centra en transformar la vestimenta tradicional en diseños modernos mediante la herencia de elementos culturales y la adaptación al contexto moderno. Nuestra evaluación muestra que los VLMs cerrados tienen un desempeño comparable al de no expertos en la comprensión visual cultural, pero se quedan un 10\% por debajo de los expertos humanos, mientras que los VLMs abiertos se quedan aún más atrás que los no expertos. Para la tarea de transcreación, una evaluación humana multifacética indica que el modelo con mejor desempeño alcanza una tasa de éxito de solo el 42\%. Nuestro benchmark proporciona un banco de pruebas esencial, revelando desafíos significativos en esta nueva dirección de comprensión cultural temporal y adaptación creativa.
English
Culture is a rich and dynamic domain that evolves across both geography and
time. However, existing studies on cultural understanding with vision-language
models (VLMs) primarily emphasize geographic diversity, often overlooking the
critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a
novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning
ancient Chinese dynasties, serves as a representative cultural heritage that
reflects the profound temporal aspects of Chinese culture while remaining
highly popular in Chinese contemporary society. Hanfu-Bench comprises two core
tasks: cultural visual understanding and cultural image transcreation.The
former task examines temporal-cultural feature recognition based on single- or
multi-image inputs through multiple-choice visual question answering, while the
latter focuses on transforming traditional attire into modern designs through
cultural element inheritance and modern context adaptation. Our evaluation
shows that closed VLMs perform comparably to non-experts on visual cutural
understanding but fall short by 10\% to human experts, while open VLMs lags
further behind non-experts. For the transcreation task, multi-faceted human
evaluation indicates that the best-performing model achieves a success rate of
only 42\%. Our benchmark provides an essential testbed, revealing significant
challenges in this new direction of temporal cultural understanding and
creative adaptation.