ChatPaper.aiChatPaper

Изображение проводник: Точное управление для интерактивного синтеза видео.

Image Conductor: Precision Control for Interactive Video Synthesis

June 21, 2024
Авторы: Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan
cs.AI

Аннотация

Создание фильмов и производство анимации часто требуют сложных техник для координации переходов камеры и движений объектов, обычно включающих трудоемкое захватывание реального мира. Несмотря на прогресс в области генеративного искусственного интеллекта для создания видео, достижение точного контроля над движением для генерации интерактивных видео-ресурсов остается сложной задачей. В этой связи мы предлагаем Image Conductor, метод для точного контроля переходов камеры и движений объектов для генерации видео-ресурсов из одного изображения. Предлагается хорошо продуманная стратегия обучения для разделения отдельных движений камеры и объекта с помощью весов камеры LoRA и весов объекта LoRA. Для дальнейшего учета кинематографических вариаций от недостаточно определенных траекторий мы вводим технику направляющего объекта без камеры во время вывода, улучшая движения объекта и устраняя переходы камеры. Кроме того, мы разрабатываем конвейер кураторства данных о видеодвижении, ориентированный на траектории, для обучения. Количественные и качественные эксперименты демонстрируют точность и тонкое управление нашим методом в создании видео с управляемым движением из изображений, продвигая практическое применение интерактивного синтеза видео. Веб-страница проекта доступна по адресу https://liyaowei-stu.github.io/project/ImageConductor/
English
Filmmaking and animation production often require sophisticated techniques for coordinating camera transitions and object movements, typically involving labor-intensive real-world capturing. Despite advancements in generative AI for video creation, achieving precise control over motion for interactive video asset generation remains challenging. To this end, we propose Image Conductor, a method for precise control of camera transitions and object movements to generate video assets from a single image. An well-cultivated training strategy is proposed to separate distinct camera and object motion by camera LoRA weights and object LoRA weights. To further address cinematographic variations from ill-posed trajectories, we introduce a camera-free guidance technique during inference, enhancing object movements while eliminating camera transitions. Additionally, we develop a trajectory-oriented video motion data curation pipeline for training. Quantitative and qualitative experiments demonstrate our method's precision and fine-grained control in generating motion-controllable videos from images, advancing the practical application of interactive video synthesis. Project webpage available at https://liyaowei-stu.github.io/project/ImageConductor/

Summary

AI-Generated Summary

PDF93November 29, 2024