ChatPaper.aiChatPaper

Doelbewuste Video Diffusiemodellen

Target-Aware Video Diffusion Models

March 24, 2025
Auteurs: Taeksoo Kim, Hanbyul Joo
cs.AI

Samenvatting

We presenteren een doelbewuste videodiffusiemodel dat video's genereert vanuit een invoerafbeelding waarin een acteur interageert met een gespecificeerd doel terwijl een gewenste actie wordt uitgevoerd. Het doel wordt gedefinieerd door een segmentatiemasker en de gewenste actie wordt beschreven via een tekstprompt. In tegenstelling tot bestaande beheersbare beeld-naar-video diffusiemodellen die vaak vertrouwen op dichte structurele of bewegingsaanwijzingen om de bewegingen van de acteur naar het doel te sturen, vereist ons doelbewuste model slechts een eenvoudig masker om het doel aan te geven, waarbij het gebruikmaakt van de generalisatiecapaciteiten van vooraf getrainde modellen om plausibele acties te produceren. Dit maakt onze methode bijzonder effectief voor scenario's van mens-objectinteractie (HOI), waar het geven van precieze actiebegeleiding uitdagend is, en maakt verder het gebruik van videodiffusiemodellen mogelijk voor hoogwaardige actieplanning in toepassingen zoals robotica. We bouwen ons doelbewuste model door een basismodel uit te breiden om het doelmasker als een extra invoer te incorporeren. Om doelbewustzijn af te dwingen, introduceren we een speciaal token dat de ruimtelijke informatie van het doel codeert binnen de tekstprompt. We fine-tunen vervolgens het model met onze samengestelde dataset met behulp van een nieuw kruis-attentieverlies dat de kruis-attentiemaps geassocieerd met dit token uitlijnt met het invoerdoelmasker. Om de prestaties verder te verbeteren, passen we dit verlies selectief toe op de meest semantisch relevante transformatorblokken en aandachtregio's. Experimentele resultaten tonen aan dat ons doelbewuste model bestaande oplossingen overtreft in het genereren van video's waarin acteurs nauwkeurig interageren met de gespecificeerde doelen. We demonstreren verder de effectiviteit ervan in twee downstream-toepassingen: videocontentcreatie en zero-shot 3D HOI-bewegingssynthese.
English
We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor's movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target's spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

Summary

AI-Generated Summary

PDF52April 3, 2025