Trajectorie-aandacht voor verfijnde controle van videobeweging
Trajectory Attention for Fine-grained Video Motion Control
November 28, 2024
Auteurs: Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Samenvatting
Recente ontwikkelingen in videogeneratie zijn sterk gestimuleerd door videodiffusiemodellen, waarbij camerabewegingsbesturing naar voren komt als een cruciale uitdaging bij het creëren van op maat gemaakte visuele inhoud. Dit artikel introduceert trajectaandacht, een nieuw benadering die aandacht uitvoert langs beschikbare pixeltrajecten voor nauwkeurige camerabewegingsbesturing. In tegenstelling tot bestaande methoden die vaak onnauwkeurige resultaten opleveren of temporale correlaties verwaarlozen, heeft onze benadering een sterkere inductieve bias die trajectinformatie naadloos injecteert in het videogeneratieproces. Belangrijk is dat onze benadering trajectaandacht modelleert als een hulpbranche naast traditionele temporale aandacht. Deze opzet maakt het mogelijk dat de oorspronkelijke temporale aandacht en de trajectaandacht synergetisch werken, waardoor zowel nauwkeurige bewegingsbesturing als nieuwe inhoudsgeneratiemogelijkheden worden gegarandeerd, wat cruciaal is wanneer het traject slechts gedeeltelijk beschikbaar is. Experimenten met camerabewegingsbesturing voor afbeeldingen en video's tonen aanzienlijke verbeteringen in precisie en consistentie op lange termijn, met behoud van hoogwaardige generatie. Bovendien laten we zien dat onze benadering kan worden uitgebreid naar andere videobewegingsbesturingstaken, zoals video-editing geleid door het eerste frame, waarbij het uitblinkt in het behouden van inhoudsconsistentie over grote ruimtelijke en temporele bereiken.
English
Recent advancements in video generation have been greatly driven by video
diffusion models, with camera motion control emerging as a crucial challenge in
creating view-customized visual content. This paper introduces trajectory
attention, a novel approach that performs attention along available pixel
trajectories for fine-grained camera motion control. Unlike existing methods
that often yield imprecise outputs or neglect temporal correlations, our
approach possesses a stronger inductive bias that seamlessly injects trajectory
information into the video generation process. Importantly, our approach models
trajectory attention as an auxiliary branch alongside traditional temporal
attention. This design enables the original temporal attention and the
trajectory attention to work in synergy, ensuring both precise motion control
and new content generation capability, which is critical when the trajectory is
only partially available. Experiments on camera motion control for images and
videos demonstrate significant improvements in precision and long-range
consistency while maintaining high-quality generation. Furthermore, we show
that our approach can be extended to other video motion control tasks, such as
first-frame-guided video editing, where it excels in maintaining content
consistency over large spatial and temporal ranges.