TrackGo: Гибкий и эффективный метод для управляемой генерации видео
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
Авторы: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
Аннотация
В последние годы наблюдается значительный прогресс в генерации видео с возможностью управления на основе диффузии. Однако достижение точного контроля в сложных сценариях, включая детализированные части объектов, сложные траектории движения и согласованное движение фона, остается вызовом. В данной статье мы представляем TrackGo, новый подход, который использует маски и стрелки произвольной формы для условной генерации видео. Этот метод предлагает пользователям гибкий и точный механизм управления видеоконтентом. Мы также предлагаем TrackAdapter для реализации управления, эффективный и легкий адаптер, разработанный для плавной интеграции во временные слои самовнимания предварительно обученной модели генерации видео. Этот дизайн использует наше наблюдение о том, что карта внимания этих слоев может точно активировать области, соответствующие движению на видео. Наши экспериментальные результаты демонстрируют, что наш новый подход, улучшенный TrackAdapter, достигает передовых показателей по ключевым метрикам, таким как FVD, FID и ObjMC. Страницу проекта TrackGo можно найти по адресу: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/Summary
AI-Generated Summary