TrailBlazer: Trajectoriecontrole voor op diffusie gebaseerde videogeneratie
TrailBlazer: Trajectory Control for Diffusion-Based Video Generation
December 31, 2023
Auteurs: Wan-Duo Kurt Ma, J. P. Lewis, W. Bastiaan Kleijn
cs.AI
Samenvatting
Binnen recente benaderingen voor tekst-naar-video (T2V) generatie is het bereiken van controleerbaarheid in de gesynthetiseerde video vaak een uitdaging. Typisch wordt dit probleem aangepakt door laagniveau begeleiding per frame te bieden in de vorm van randkaarten, dieptekaarten of een bestaande video die moet worden aangepast. Het verkrijgen van dergelijke begeleiding kan echter arbeidsintensief zijn. Dit artikel richt zich op het verbeteren van controleerbaarheid in videosynthese door eenvoudige begrenzingsvakken te gebruiken om het onderwerp op verschillende manieren te sturen, zonder de noodzaak van neurale netwerktraining, finetuning, optimalisatie tijdens inferentie of het gebruik van bestaande video's. Ons algoritme, TrailBlazer, is gebouwd op een vooraf getraind (T2V) model en eenvoudig te implementeren. Het onderwerp wordt gestuurd door een begrenzingsvak via de voorgestelde ruimtelijke en temporele aandachtkaartbewerking. Bovendien introduceren we het concept van keyframing, waardoor de trajectorie van het onderwerp en het algemene uiterlijk kunnen worden gestuurd door zowel een bewegend begrenzingsvak als bijbehorende prompts, zonder dat een gedetailleerd masker nodig is. De methode is efficiënt, met verwaarloosbare extra berekening ten opzichte van het onderliggende vooraf getrainde model. Ondanks de eenvoud van de begrenzingsvakbegeleiding, is de resulterende beweging verrassend natuurlijk, met opkomende effecten zoals perspectief en beweging richting de virtuele camera naarmate de vakgrootte toeneemt.
English
Within recent approaches to text-to-video (T2V) generation, achieving
controllability in the synthesized video is often a challenge. Typically, this
issue is addressed by providing low-level per-frame guidance in the form of
edge maps, depth maps, or an existing video to be altered. However, the process
of obtaining such guidance can be labor-intensive. This paper focuses on
enhancing controllability in video synthesis by employing straightforward
bounding boxes to guide the subject in various ways, all without the need for
neural network training, finetuning, optimization at inference time, or the use
of pre-existing videos. Our algorithm, TrailBlazer, is constructed upon a
pre-trained (T2V) model, and easy to implement. The subject is directed by a
bounding box through the proposed spatial and temporal attention map editing.
Moreover, we introduce the concept of keyframing, allowing the subject
trajectory and overall appearance to be guided by both a moving bounding box
and corresponding prompts, without the need to provide a detailed mask. The
method is efficient, with negligible additional computation relative to the
underlying pre-trained model. Despite the simplicity of the bounding box
guidance, the resulting motion is surprisingly natural, with emergent effects
including perspective and movement toward the virtual camera as the box size
increases.