Modelos de Difusão de Vídeo Conscientes do Alvo
Target-Aware Video Diffusion Models
March 24, 2025
Autores: Taeksoo Kim, Hanbyul Joo
cs.AI
Resumo
Apresentamos um modelo de difusão de vídeo consciente do alvo que gera vídeos a partir de uma imagem de entrada na qual um ator interage com um alvo especificado enquanto realiza uma ação desejada. O alvo é definido por uma máscara de segmentação e a ação desejada é descrita por meio de um prompt de texto. Diferente dos modelos existentes de difusão imagem-para-vídeo controláveis que frequentemente dependem de pistas estruturais ou de movimento densas para guiar os movimentos do ator em direção ao alvo, nosso modelo consciente do alvo requer apenas uma máscara simples para indicar o alvo, aproveitando as capacidades de generalização de modelos pré-treinados para produzir ações plausíveis. Isso torna nosso método particularmente eficaz para cenários de interação humano-objeto (HOI), onde fornecer orientações precisas de ação é desafiador, e ainda permite o uso de modelos de difusão de vídeo para planejamento de ações de alto nível em aplicações como robótica. Construímos nosso modelo consciente do alvo estendendo um modelo de linha de base para incorporar a máscara do alvo como uma entrada adicional. Para reforçar a consciência do alvo, introduzimos um token especial que codifica a informação espacial do alvo dentro do prompt de texto. Em seguida, ajustamos o modelo com nosso conjunto de dados curado usando uma nova função de perda de atenção cruzada que alinha os mapas de atenção cruzada associados a esse token com a máscara do alvo de entrada. Para melhorar ainda mais o desempenho, aplicamos seletivamente essa perda aos blocos de transformadores e regiões de atenção semanticamente mais relevantes. Resultados experimentais mostram que nosso modelo consciente do alvo supera as soluções existentes na geração de vídeos onde os atores interagem com precisão com os alvos especificados. Demonstramos ainda sua eficácia em duas aplicações subsequentes: criação de conteúdo de vídeo e síntese de movimento 3D HOI zero-shot.
English
We present a target-aware video diffusion model that generates videos from an
input image in which an actor interacts with a specified target while
performing a desired action. The target is defined by a segmentation mask and
the desired action is described via a text prompt. Unlike existing controllable
image-to-video diffusion models that often rely on dense structural or motion
cues to guide the actor's movements toward the target, our target-aware model
requires only a simple mask to indicate the target, leveraging the
generalization capabilities of pretrained models to produce plausible actions.
This makes our method particularly effective for human-object interaction (HOI)
scenarios, where providing precise action guidance is challenging, and further
enables the use of video diffusion models for high-level action planning in
applications such as robotics. We build our target-aware model by extending a
baseline model to incorporate the target mask as an additional input. To
enforce target awareness, we introduce a special token that encodes the
target's spatial information within the text prompt. We then fine-tune the
model with our curated dataset using a novel cross-attention loss that aligns
the cross-attention maps associated with this token with the input target mask.
To further improve performance, we selectively apply this loss to the most
semantically relevant transformer blocks and attention regions. Experimental
results show that our target-aware model outperforms existing solutions in
generating videos where actors interact accurately with the specified targets.
We further demonstrate its efficacy in two downstream applications: video
content creation and zero-shot 3D HOI motion synthesis.Summary
AI-Generated Summary