Modelos de Difusão de Vídeo Conscientes do Alvo

Resumo

Apresentamos um modelo de difusão de vídeo consciente do alvo que gera vídeos a partir de uma imagem de entrada na qual um ator interage com um alvo especificado enquanto realiza uma ação desejada. O alvo é definido por uma máscara de segmentação e a ação desejada é descrita por meio de um prompt de texto. Diferente dos modelos existentes de difusão imagem-para-vídeo controláveis que frequentemente dependem de pistas estruturais ou de movimento densas para guiar os movimentos do ator em direção ao alvo, nosso modelo consciente do alvo requer apenas uma máscara simples para indicar o alvo, aproveitando as capacidades de generalização de modelos pré-treinados para produzir ações plausíveis. Isso torna nosso método particularmente eficaz para cenários de interação humano-objeto (HOI), onde fornecer orientações precisas de ação é desafiador, e ainda permite o uso de modelos de difusão de vídeo para planejamento de ações de alto nível em aplicações como robótica. Construímos nosso modelo consciente do alvo estendendo um modelo de linha de base para incorporar a máscara do alvo como uma entrada adicional. Para reforçar a consciência do alvo, introduzimos um token especial que codifica a informação espacial do alvo dentro do prompt de texto. Em seguida, ajustamos o modelo com nosso conjunto de dados curado usando uma nova função de perda de atenção cruzada que alinha os mapas de atenção cruzada associados a esse token com a máscara do alvo de entrada. Para melhorar ainda mais o desempenho, aplicamos seletivamente essa perda aos blocos de transformadores e regiões de atenção semanticamente mais relevantes. Resultados experimentais mostram que nosso modelo consciente do alvo supera as soluções existentes na geração de vídeos onde os atores interagem com precisão com os alvos especificados. Demonstramos ainda sua eficácia em duas aplicações subsequentes: criação de conteúdo de vídeo e síntese de movimento 3D HOI zero-shot.

English

We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor's movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target's spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

Modelos de Difusão de Vídeo Conscientes do Alvo

Target-Aware Video Diffusion Models

Resumo

Summary

Support

Support