TrackGo: 制御可能なビデオ生成のための柔軟かつ効率的な手法
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
著者: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
要旨
近年、拡散に基づく制御可能なビデオ生成技術は大きな進歩を遂げています。しかし、微細なオブジェクト部分、洗練された動きの軌跡、一貫した背景の動きを含む複雑なシナリオでの正確な制御を実現することは依然として課題です。本論文では、自由形状のマスクと矢印を活用した条件付きビデオ生成の新手法であるTrackGoを紹介します。この手法は、ユーザーに柔軟で正確なビデオコンテンツの操作メカニズムを提供します。また、制御実装のためのTrackAdapterを提案し、事前学習されたビデオ生成モデルの時間的自己注意層にシームレスに統合できる効率的で軽量なアダプターです。この設計は、これらの層の注意マップがビデオ内の動きに対応する領域を正確に活性化できるという我々の観察を活用しています。実験結果は、TrackAdapterによって強化された新手法が、FVD、FID、ObjMCスコアなどの主要指標で最先端の性能を達成していることを示しています。TrackGoのプロジェクトページは以下からアクセスできます: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/Summary
AI-Generated Summary