ChatPaper.aiChatPaper

TrackGo: Гибкий и эффективный метод для управляемой генерации видео

TrackGo: A Flexible and Efficient Method for Controllable Video Generation

August 21, 2024
Авторы: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI

Аннотация

В последние годы наблюдается значительный прогресс в генерации видео с возможностью управления на основе диффузии. Однако достижение точного контроля в сложных сценариях, включая детализированные части объектов, сложные траектории движения и согласованное движение фона, остается вызовом. В данной статье мы представляем TrackGo, новый подход, который использует маски и стрелки произвольной формы для условной генерации видео. Этот метод предлагает пользователям гибкий и точный механизм управления видеоконтентом. Мы также предлагаем TrackAdapter для реализации управления, эффективный и легкий адаптер, разработанный для плавной интеграции во временные слои самовнимания предварительно обученной модели генерации видео. Этот дизайн использует наше наблюдение о том, что карта внимания этих слоев может точно активировать области, соответствующие движению на видео. Наши экспериментальные результаты демонстрируют, что наш новый подход, улучшенный TrackAdapter, достигает передовых показателей по ключевым метрикам, таким как FVD, FID и ObjMC. Страницу проекта TrackGo можно найти по адресу: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable video generation. However, achieving precise control in complex scenarios, including fine-grained object parts, sophisticated motion trajectories, and coherent background movement, remains a challenge. In this paper, we introduce TrackGo, a novel approach that leverages free-form masks and arrows for conditional video generation. This method offers users with a flexible and precise mechanism for manipulating video content. We also propose the TrackAdapter for control implementation, an efficient and lightweight adapter designed to be seamlessly integrated into the temporal self-attention layers of a pretrained video generation model. This design leverages our observation that the attention map of these layers can accurately activate regions corresponding to motion in videos. Our experimental results demonstrate that our new approach, enhanced by the TrackAdapter, achieves state-of-the-art performance on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo can be found at: https://zhtjtcz.github.io/TrackGo-Page/

Summary

AI-Generated Summary

PDF182November 16, 2024