Zielorientierte Video-Diffusionsmodelle
Target-Aware Video Diffusion Models
March 24, 2025
Autoren: Taeksoo Kim, Hanbyul Joo
cs.AI
Zusammenfassung
Wir präsentieren ein zielbewusstes Video-Diffusionsmodell, das Videos aus einem Eingabebild generiert, in dem ein Akteur mit einem spezifizierten Ziel interagiert, während er eine gewünschte Aktion ausführt. Das Ziel wird durch eine Segmentierungsmaske definiert, und die gewünschte Aktion wird über einen Textprompt beschrieben. Im Gegensatz zu bestehenden kontrollierbaren Bild-zu-Video-Diffusionsmodellen, die oft auf dichte strukturelle oder Bewegungsinformationen angewiesen sind, um die Bewegungen des Akteurs zum Ziel zu lenken, benötigt unser zielbewusstes Modell lediglich eine einfache Maske, um das Ziel anzugeben, und nutzt die Generalisierungsfähigkeiten vortrainierter Modelle, um plausible Aktionen zu erzeugen. Dies macht unsere Methode besonders effektiv für Szenarien der Mensch-Objekt-Interaktion (HOI), in denen die Bereitstellung präziser Aktionsanleitungen schwierig ist, und ermöglicht darüber hinaus den Einsatz von Video-Diffusionsmodellen für die hochrangige Aktionsplanung in Anwendungen wie der Robotik. Wir entwickeln unser zielbewusstes Modell, indem wir ein Basismodell erweitern, um die Zielmaske als zusätzliche Eingabe zu integrieren. Um die Zielbewusstheit zu gewährleisten, führen wir ein spezielles Token ein, das die räumlichen Informationen des Ziels innerhalb des Textprompts kodiert. Anschließend feintunen wir das Modell mit unserem kuratierten Datensatz unter Verwendung eines neuartigen Cross-Attention-Verlusts, der die Cross-Attention-Karten, die mit diesem Token verbunden sind, mit der Eingabe-Zielmaske ausrichtet. Um die Leistung weiter zu verbessern, wenden wir diesen Verlust selektiv auf die semantisch relevantesten Transformer-Blöcke und Aufmerksamkeitsregionen an. Experimentelle Ergebnisse zeigen, dass unser zielbewusstes Modell bestehende Lösungen bei der Generierung von Videos, in denen Akteure präzise mit den spezifizierten Zielen interagieren, übertrifft. Wir demonstrieren seine Wirksamkeit weiterhin in zwei nachgelagerten Anwendungen: der Erstellung von Videoinhalten und der Zero-Shot-3D-HOI-Bewegungssynthese.
English
We present a target-aware video diffusion model that generates videos from an
input image in which an actor interacts with a specified target while
performing a desired action. The target is defined by a segmentation mask and
the desired action is described via a text prompt. Unlike existing controllable
image-to-video diffusion models that often rely on dense structural or motion
cues to guide the actor's movements toward the target, our target-aware model
requires only a simple mask to indicate the target, leveraging the
generalization capabilities of pretrained models to produce plausible actions.
This makes our method particularly effective for human-object interaction (HOI)
scenarios, where providing precise action guidance is challenging, and further
enables the use of video diffusion models for high-level action planning in
applications such as robotics. We build our target-aware model by extending a
baseline model to incorporate the target mask as an additional input. To
enforce target awareness, we introduce a special token that encodes the
target's spatial information within the text prompt. We then fine-tune the
model with our curated dataset using a novel cross-attention loss that aligns
the cross-attention maps associated with this token with the input target mask.
To further improve performance, we selectively apply this loss to the most
semantically relevant transformer blocks and attention regions. Experimental
results show that our target-aware model outperforms existing solutions in
generating videos where actors interact accurately with the specified targets.
We further demonstrate its efficacy in two downstream applications: video
content creation and zero-shot 3D HOI motion synthesis.Summary
AI-Generated Summary