Hanfu-Bench: Un punto de referencia multimodal para la comprensión y transcreación cultural a través del tiempo

Resumen

La cultura es un dominio rico y dinámico que evoluciona tanto en la geografía como en el tiempo. Sin embargo, los estudios existentes sobre la comprensión cultural con modelos de visión y lenguaje (VLMs) se centran principalmente en la diversidad geográfica, pasando por alto las dimensiones temporales críticas. Para cerrar esta brecha, presentamos Hanfu-Bench, un novedoso conjunto de datos multimodal curado por expertos. El Hanfu, una vestimenta tradicional que abarca las antiguas dinastías chinas, sirve como un patrimonio cultural representativo que refleja los profundos aspectos temporales de la cultura china, al mismo tiempo que sigue siendo muy popular en la sociedad contemporánea china. Hanfu-Bench consta de dos tareas principales: comprensión visual cultural y transcreación de imágenes culturales. La primera tarea examina el reconocimiento de características culturales temporales basado en entradas de una o varias imágenes a través de preguntas de opción múltiple con respuestas visuales, mientras que la segunda se centra en transformar la vestimenta tradicional en diseños modernos mediante la herencia de elementos culturales y la adaptación al contexto moderno. Nuestra evaluación muestra que los VLMs cerrados tienen un desempeño comparable al de no expertos en la comprensión visual cultural, pero se quedan un 10\% por debajo de los expertos humanos, mientras que los VLMs abiertos se quedan aún más atrás que los no expertos. Para la tarea de transcreación, una evaluación humana multifacética indica que el modelo con mejor desempeño alcanza una tasa de éxito de solo el 42\%. Nuestro benchmark proporciona un banco de pruebas esencial, revelando desafíos significativos en esta nueva dirección de comprensión cultural temporal y adaptación creativa.

English

Culture is a rich and dynamic domain that evolves across both geography and time. However, existing studies on cultural understanding with vision-language models (VLMs) primarily emphasize geographic diversity, often overlooking the critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning ancient Chinese dynasties, serves as a representative cultural heritage that reflects the profound temporal aspects of Chinese culture while remaining highly popular in Chinese contemporary society. Hanfu-Bench comprises two core tasks: cultural visual understanding and cultural image transcreation.The former task examines temporal-cultural feature recognition based on single- or multi-image inputs through multiple-choice visual question answering, while the latter focuses on transforming traditional attire into modern designs through cultural element inheritance and modern context adaptation. Our evaluation shows that closed VLMs perform comparably to non-experts on visual cutural understanding but fall short by 10\% to human experts, while open VLMs lags further behind non-experts. For the transcreation task, multi-faceted human evaluation indicates that the best-performing model achieves a success rate of only 42\%. Our benchmark provides an essential testbed, revealing significant challenges in this new direction of temporal cultural understanding and creative adaptation.

Hanfu-Bench: Un punto de referencia multimodal para la comprensión y transcreación cultural a través del tiempo

Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

Resumen

Support