SG-I2V: Самоконтролируемое управление траекторией в генерации видео из изображений
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation
November 7, 2024
Авторы: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI
Аннотация
Методы генерации видео из изображений достигли впечатляющего фотореалистичного качества. Однако точная настройка конкретных элементов в создаваемых видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными сидами. Современные подходы решают эту проблему путем дообучения предварительно обученной модели для следования управляющим сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, процедура дообучиния может быть вычислительно затратной и требует наличия наборов данных с аннотированным движением объектов, которые сложно получить. В данной работе мы представляем SG-I2V — фреймворк для управляемой генерации видео из изображений, который является самонаправляемым и обеспечивает zero-shot контроль, полагаясь исключительно на знания, заложенные в предварительно обученную диффузионную модель без необходимости дообучения или привлечения внешних знаний. Наш zero-shot метод превосходит неконтролируемые базовые подходы, оставаясь конкурентоспособным с обученными моделями по визуальному качеству и точности передачи движения.
English
Methods for image-to-video generation have achieved impressive,
photo-realistic quality. However, adjusting specific elements in generated
videos, such as object motion or camera movement, is often a tedious process of
trial and error, e.g., involving re-generating videos with different random
seeds. Recent techniques address this issue by fine-tuning a pre-trained model
to follow conditioning signals, such as bounding boxes or point trajectories.
Yet, this fine-tuning procedure can be computationally expensive, and it
requires datasets with annotated object motion, which can be difficult to
procure. In this work, we introduce SG-I2V, a framework for controllable
image-to-video generation that is self-guidedx2013offering
zero-shot control by relying solely on the knowledge present in a pre-trained
image-to-video diffusion model without the need for fine-tuning or external
knowledge. Our zero-shot method outperforms unsupervised baselines while being
competitive with supervised models in terms of visual quality and motion
fidelity.