AnchorCrafter: Animar CiberAnclas Vendiendo Tus Productos a través de la Generación de Videos de Interacción Humano-Objeto
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation
November 26, 2024
Autores: Ziyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang
cs.AI
Resumen
La generación automática de videos de promoción de productos en estilo ancla presenta oportunidades prometedoras en el comercio en línea, la publicidad y la participación del consumidor. Sin embargo, esto sigue siendo una tarea desafiante a pesar de los avances significativos en la generación de videos humanos guiados por poses. Al abordar este desafío, identificamos la integración de interacciones humano-objeto (HOI) en la generación de videos humanos guiados por poses como un problema central. Con este fin, presentamos AnchorCrafter, un novedoso sistema basado en difusión diseñado para generar videos 2D con un humano objetivo y un objeto personalizado, logrando una alta fidelidad visual e interacciones controlables. Específicamente, proponemos dos innovaciones clave: la percepción de apariencia HOI, que mejora el reconocimiento de la apariencia del objeto desde perspectivas arbitrarias de múltiples vistas y desvincula la apariencia del objeto y del humano, y la inyección de movimiento HOI, que permite interacciones humano-objeto complejas al superar los desafíos en la condicionamiento de la trayectoria del objeto y la gestión de la inter-oclusión. Además, introducimos la pérdida de reponderación de región HOI, un objetivo de entrenamiento que mejora el aprendizaje de los detalles del objeto. Experimentos extensos demuestran que nuestro sistema propuesto supera a los métodos existentes en la preservación de la apariencia y la conciencia de la forma del objeto, al mismo tiempo que mantiene la consistencia en la apariencia y el movimiento humanos. Página del proyecto: https://cangcz.github.io/Anchor-Crafter/
English
The automatic generation of anchor-style product promotion videos presents
promising opportunities in online commerce, advertising, and consumer
engagement. However, this remains a challenging task despite significant
advancements in pose-guided human video generation. In addressing this
challenge, we identify the integration of human-object interactions (HOI) into
pose-guided human video generation as a core issue. To this end, we introduce
AnchorCrafter, a novel diffusion-based system designed to generate 2D videos
featuring a target human and a customized object, achieving high visual
fidelity and controllable interactions. Specifically, we propose two key
innovations: the HOI-appearance perception, which enhances object appearance
recognition from arbitrary multi-view perspectives and disentangles object and
human appearance, and the HOI-motion injection, which enables complex
human-object interactions by overcoming challenges in object trajectory
conditioning and inter-occlusion management. Additionally, we introduce the
HOI-region reweighting loss, a training objective that enhances the learning of
object details. Extensive experiments demonstrate that our proposed system
outperforms existing methods in preserving object appearance and shape
awareness, while simultaneously maintaining consistency in human appearance and
motion. Project page: https://cangcz.github.io/Anchor-Crafter/