AnchorCrafter: Animação de CyberAnchors Vendendo Seus Produtos via Geração de Vídeos de Interação Humano-Objeto
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation
November 26, 2024
Autores: Ziyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang
cs.AI
Resumo
A geração automática de vídeos de promoção de produtos no estilo de âncora apresenta oportunidades promissoras no comércio online, publicidade e engajamento do consumidor. No entanto, isso ainda é uma tarefa desafiadora, apesar dos avanços significativos na geração de vídeos humanos guiados por pose. Ao abordar esse desafio, identificamos a integração das interações humano-objeto (HOI) na geração de vídeos humanos guiados por pose como uma questão central. Para isso, apresentamos o AnchorCrafter, um sistema inovador baseado em difusão projetado para gerar vídeos 2D com um humano-alvo e um objeto personalizado, alcançando alta fidelidade visual e interações controláveis. Especificamente, propomos duas inovações-chave: a percepção de aparência HOI, que aprimora o reconhecimento da aparência do objeto a partir de perspectivas arbitrárias de várias visualizações e desembaraça a aparência do objeto e do humano, e a injeção de movimento HOI, que permite interações complexas entre humano e objeto ao superar desafios na condicionamento de trajetória de objeto e gerenciamento de inter-oclusão. Além disso, introduzimos a perda de reponderação de região HOI, um objetivo de treinamento que aprimora a aprendizagem de detalhes do objeto. Experimentos extensivos demonstram que nosso sistema proposto supera os métodos existentes na preservação da aparência e consciência da forma do objeto, ao mesmo tempo que mantém a consistência na aparência e movimento humanos. Página do projeto: https://cangcz.github.io/Anchor-Crafter/
English
The automatic generation of anchor-style product promotion videos presents
promising opportunities in online commerce, advertising, and consumer
engagement. However, this remains a challenging task despite significant
advancements in pose-guided human video generation. In addressing this
challenge, we identify the integration of human-object interactions (HOI) into
pose-guided human video generation as a core issue. To this end, we introduce
AnchorCrafter, a novel diffusion-based system designed to generate 2D videos
featuring a target human and a customized object, achieving high visual
fidelity and controllable interactions. Specifically, we propose two key
innovations: the HOI-appearance perception, which enhances object appearance
recognition from arbitrary multi-view perspectives and disentangles object and
human appearance, and the HOI-motion injection, which enables complex
human-object interactions by overcoming challenges in object trajectory
conditioning and inter-occlusion management. Additionally, we introduce the
HOI-region reweighting loss, a training objective that enhances the learning of
object details. Extensive experiments demonstrate that our proposed system
outperforms existing methods in preserving object appearance and shape
awareness, while simultaneously maintaining consistency in human appearance and
motion. Project page: https://cangcz.github.io/Anchor-Crafter/Summary
AI-Generated Summary