TrackGo: 제어 가능한 비디오 생성을 위한 유연하고 효율적인 방법
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
저자: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
초록
최근 몇 년간 확산 기반 제어 가능한 비디오 생성 기술에서 상당한 진전이 있었습니다. 그러나 세밀한 객체 부분, 복잡한 움직임 궤적, 일관된 배경 이동을 포함한 복잡한 시나리오에서 정밀한 제어를 달성하는 것은 여전히 어려운 과제입니다. 본 논문에서는 자유 형태의 마스크와 화살표를 활용한 조건부 비디오 생성을 위한 혁신적인 접근 방식인 TrackGo를 소개합니다. 이 방법은 사용자에게 비디오 콘텐츠를 유연하고 정확하게 조작할 수 있는 메커니즘을 제공합니다. 또한 사전 훈련된 비디오 생성 모델의 시간 자기 주의 계층에 원활하게 통합되도록 설계된 효율적이고 가벼운 어댑터인 TrackAdapter를 제안합니다. 이 설계는 이러한 계층의 주의 맵이 비디오의 움직임에 해당하는 영역을 정확하게 활성화할 수 있다는 관찰을 기반으로 합니다. 실험 결과는 TrackAdapter로 향상된 새로운 접근 방식이 FVD, FID 및 ObjMC 점수와 같은 주요 지표에서 최고 수준의 성능을 달성한다는 것을 보여줍니다. TrackGo의 프로젝트 페이지는 다음에서 확인할 수 있습니다: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/Summary
AI-Generated Summary