AnchorCrafter: Animação de CyberAnchors Vendendo Seus Produtos via Geração de Vídeos de Interação Humano-Objeto

Resumo

A geração automática de vídeos de promoção de produtos no estilo de âncora apresenta oportunidades promissoras no comércio online, publicidade e engajamento do consumidor. No entanto, isso ainda é uma tarefa desafiadora, apesar dos avanços significativos na geração de vídeos humanos guiados por pose. Ao abordar esse desafio, identificamos a integração das interações humano-objeto (HOI) na geração de vídeos humanos guiados por pose como uma questão central. Para isso, apresentamos o AnchorCrafter, um sistema inovador baseado em difusão projetado para gerar vídeos 2D com um humano-alvo e um objeto personalizado, alcançando alta fidelidade visual e interações controláveis. Especificamente, propomos duas inovações-chave: a percepção de aparência HOI, que aprimora o reconhecimento da aparência do objeto a partir de perspectivas arbitrárias de várias visualizações e desembaraça a aparência do objeto e do humano, e a injeção de movimento HOI, que permite interações complexas entre humano e objeto ao superar desafios na condicionamento de trajetória de objeto e gerenciamento de inter-oclusão. Além disso, introduzimos a perda de reponderação de região HOI, um objetivo de treinamento que aprimora a aprendizagem de detalhes do objeto. Experimentos extensivos demonstram que nosso sistema proposto supera os métodos existentes na preservação da aparência e consciência da forma do objeto, ao mesmo tempo que mantém a consistência na aparência e movimento humanos. Página do projeto: https://cangcz.github.io/Anchor-Crafter/

English

The automatic generation of anchor-style product promotion videos presents promising opportunities in online commerce, advertising, and consumer engagement. However, this remains a challenging task despite significant advancements in pose-guided human video generation. In addressing this challenge, we identify the integration of human-object interactions (HOI) into pose-guided human video generation as a core issue. To this end, we introduce AnchorCrafter, a novel diffusion-based system designed to generate 2D videos featuring a target human and a customized object, achieving high visual fidelity and controllable interactions. Specifically, we propose two key innovations: the HOI-appearance perception, which enhances object appearance recognition from arbitrary multi-view perspectives and disentangles object and human appearance, and the HOI-motion injection, which enables complex human-object interactions by overcoming challenges in object trajectory conditioning and inter-occlusion management. Additionally, we introduce the HOI-region reweighting loss, a training objective that enhances the learning of object details. Extensive experiments demonstrate that our proposed system outperforms existing methods in preserving object appearance and shape awareness, while simultaneously maintaining consistency in human appearance and motion. Project page: https://cangcz.github.io/Anchor-Crafter/

AnchorCrafter: Animação de CyberAnchors Vendendo Seus Produtos via Geração de Vídeos de Interação Humano-Objeto

AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Resumo

Support