ATI: Универсальные Инструкции по Траекториям для Управляемой Генерации Видео
ATI: Any Trajectory Instruction for Controllable Video Generation
May 28, 2025
Авторы: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma
cs.AI
Аннотация
Мы предлагаем унифицированную систему управления движением в генерации видео, которая бесшовно интегрирует движение камеры, трансляцию на уровне объектов и мелкозернистое локальное движение с использованием входных данных на основе траекторий. В отличие от предыдущих методов, которые решают эти типы движения через отдельные модули или специализированные конструкции, наш подход предлагает целостное решение, проецируя пользовательские траектории в латентное пространство предварительно обученных моделей генерации видео из изображений с помощью легковесного инжектора движения. Пользователи могут задавать ключевые точки и их пути движения для управления локализованными деформациями, движением целых объектов, динамикой виртуальной камеры или их комбинациями. Введенные сигналы траектории направляют генеративный процесс для создания временно согласованных и семантически выровненных последовательностей движения. Наша система демонстрирует превосходную производительность в различных задачах управления движением в видео, включая стилизованные эффекты движения (например, "кисти движения"), динамические изменения точки обзора и точное манипулирование локальным движением. Эксперименты показывают, что наш метод обеспечивает значительно лучшую управляемость и визуальное качество по сравнению с предыдущими подходами и коммерческими решениями, оставаясь при этом широко совместимым с различными современными архитектурами генерации видео. Страница проекта: https://anytraj.github.io/.
English
We propose a unified framework for motion control in video generation that
seamlessly integrates camera movement, object-level translation, and
fine-grained local motion using trajectory-based inputs. In contrast to prior
methods that address these motion types through separate modules or
task-specific designs, our approach offers a cohesive solution by projecting
user-defined trajectories into the latent space of pre-trained image-to-video
generation models via a lightweight motion injector. Users can specify
keypoints and their motion paths to control localized deformations, entire
object motion, virtual camera dynamics, or combinations of these. The injected
trajectory signals guide the generative process to produce temporally
consistent and semantically aligned motion sequences. Our framework
demonstrates superior performance across multiple video motion control tasks,
including stylized motion effects (e.g., motion brushes), dynamic viewpoint
changes, and precise local motion manipulation. Experiments show that our
method provides significantly better controllability and visual quality
compared to prior approaches and commercial solutions, while remaining broadly
compatible with various state-of-the-art video generation backbones. Project
page: https://anytraj.github.io/.