Boximator: Erzeugung reichhaltiger und steuerbarer Bewegungen für die Videosynthese
Boximator: Generating Rich and Controllable Motions for Video Synthesis
February 2, 2024
Autoren: Jiawei Wang, Yuchen Zhang, Jiaxin Zou, Yan Zeng, Guoqiang Wei, Liping Yuan, Hang Li
cs.AI
Zusammenfassung
Die Erzeugung von reichhaltigen und kontrollierbaren Bewegungen ist eine zentrale Herausforderung in der Videosynthese. Wir stellen Boximator vor, einen neuen Ansatz zur feingranularen Bewegungssteuerung. Boximator führt zwei Arten von Einschränkungen ein: harte Boxen und weiche Boxen. Benutzer wählen Objekte im bedingten Frame mithilfe von harten Boxen aus und verwenden dann entweder Art von Boxen, um die Position, Form oder den Bewegungspfad des Objekts in zukünftigen Frames grob oder präzise zu definieren. Boximator fungiert als Plug-in für bestehende Video-Diffusionsmodelle. Der Trainingsprozess bewahrt das Wissen des Basismodells, indem die ursprünglichen Gewichte eingefroren und nur das Kontrollmodul trainiert wird. Um Trainingsherausforderungen zu bewältigen, führen wir eine neuartige Selbstverfolgungstechnik ein, die das Erlernen von Box-Objekt-Korrelationen erheblich vereinfacht. Empirisch erreicht Boximator state-of-the-art Videoqualitätswerte (FVD), verbessert zwei Basismodelle und wird weiter gesteigert, nachdem Box-Einschränkungen integriert wurden. Die robuste Bewegungssteuerbarkeit wird durch drastische Verbesserungen in der Metrik zur Ausrichtung der Begrenzungsboxen bestätigt. Eine menschliche Bewertung zeigt zudem, dass Benutzer die Generierungsergebnisse von Boximator gegenüber dem Basismodell bevorzugen.
English
Generating rich and controllable motion is a pivotal challenge in video
synthesis. We propose Boximator, a new approach for fine-grained motion
control. Boximator introduces two constraint types: hard box and soft box.
Users select objects in the conditional frame using hard boxes and then use
either type of boxes to roughly or rigorously define the object's position,
shape, or motion path in future frames. Boximator functions as a plug-in for
existing video diffusion models. Its training process preserves the base
model's knowledge by freezing the original weights and training only the
control module. To address training challenges, we introduce a novel
self-tracking technique that greatly simplifies the learning of box-object
correlations. Empirically, Boximator achieves state-of-the-art video quality
(FVD) scores, improving on two base models, and further enhanced after
incorporating box constraints. Its robust motion controllability is validated
by drastic increases in the bounding box alignment metric. Human evaluation
also shows that users favor Boximator generation results over the base model.