Внимание к траектории для управления мелкозернистым движением видео
Trajectory Attention for Fine-grained Video Motion Control
November 28, 2024
Авторы: Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Аннотация
Недавние достижения в области генерации видео были в значительной степени обусловлены моделями диффузии видео, причем управление движением камеры стало ключевой проблемой при создании персонализированного визуального контента. В данной статье представлен метод траекторного внимания, новый подход, который осуществляет внимание вдоль доступных пиксельных траекторий для тонкого управления движением камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным смещением, которое плавно внедряет информацию о траектории в процесс генерации видео. Важно отметить, что наш подход моделирует траекторное внимание как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временному вниманию и траекторному вниманию работать в синергии, обеспечивая как точное управление движением, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по управлению движением камеры для изображений и видео показывают значительное улучшение точности и долгосрочной согласованности при сохранении высокого качества генерации. Более того, мы показываем, что наш подход может быть расширен на другие задачи управления движением видео, такие как редактирование видео с управлением первого кадра, где он превосходит в поддержании согласованности контента на больших пространственных и временных диапазонах.
English
Recent advancements in video generation have been greatly driven by video
diffusion models, with camera motion control emerging as a crucial challenge in
creating view-customized visual content. This paper introduces trajectory
attention, a novel approach that performs attention along available pixel
trajectories for fine-grained camera motion control. Unlike existing methods
that often yield imprecise outputs or neglect temporal correlations, our
approach possesses a stronger inductive bias that seamlessly injects trajectory
information into the video generation process. Importantly, our approach models
trajectory attention as an auxiliary branch alongside traditional temporal
attention. This design enables the original temporal attention and the
trajectory attention to work in synergy, ensuring both precise motion control
and new content generation capability, which is critical when the trajectory is
only partially available. Experiments on camera motion control for images and
videos demonstrate significant improvements in precision and long-range
consistency while maintaining high-quality generation. Furthermore, we show
that our approach can be extended to other video motion control tasks, such as
first-frame-guided video editing, where it excels in maintaining content
consistency over large spatial and temporal ranges.