SG-I2V: Самоконтролируемое управление траекторией в генерации видео из изображений

Аннотация

Методы генерации видео из изображений достигли впечатляющего фотореалистичного качества. Однако точная настройка конкретных элементов в создаваемых видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными сидами. Современные подходы решают эту проблему путем дообучения предварительно обученной модели для следования управляющим сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, процедура дообучиния может быть вычислительно затратной и требует наличия наборов данных с аннотированным движением объектов, которые сложно получить. В данной работе мы представляем SG-I2V — фреймворк для управляемой генерации видео из изображений, который является самонаправляемым и обеспечивает zero-shot контроль, полагаясь исключительно на знания, заложенные в предварительно обученную диффузионную модель без необходимости дообучения или привлечения внешних знаний. Наш zero-shot метод превосходит неконтролируемые базовые подходы, оставаясь конкурентоспособным с обученными моделями по визуальному качеству и точности передачи движения.

English

Methods for image-to-video generation have achieved impressive, photo-realistic quality. However, adjusting specific elements in generated videos, such as object motion or camera movement, is often a tedious process of trial and error, e.g., involving re-generating videos with different random seeds. Recent techniques address this issue by fine-tuning a pre-trained model to follow conditioning signals, such as bounding boxes or point trajectories. Yet, this fine-tuning procedure can be computationally expensive, and it requires datasets with annotated object motion, which can be difficult to procure. In this work, we introduce SG-I2V, a framework for controllable image-to-video generation that is self-guidedx2013offering zero-shot control by relying solely on the knowledge present in a pre-trained image-to-video diffusion model without the need for fine-tuning or external knowledge. Our zero-shot method outperforms unsupervised baselines while being competitive with supervised models in terms of visual quality and motion fidelity.

SG-I2V: Самоконтролируемое управление траекторией в генерации видео из изображений

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

Аннотация

Support