Пути на многообразии изображений: редактирование изображений с помощью генерации видео
Pathways on the Image Manifold: Image Editing via Video Generation
November 25, 2024
Авторы: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI
Аннотация
Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, показали значительный прогресс. Однако остаются значительные проблемы, поскольку эти модели часто испытывают трудности в точном выполнении сложных инструкций по редактированию и часто жертвуют достоверностью, изменяя ключевые элементы исходного изображения. В то же время генерация видео сделала значительные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В данной статье мы предлагаем объединить эти две области, используя модели изображений в видео для редактирования изображений. Мы переформулируем редактирование изображений как временной процесс, используя предварительно обученные видео-модели для создания плавных переходов от исходного изображения к желаемому редактированию. Этот подход непрерывно проходит по многообразию изображений, обеспечивая последовательные редактирования, сохраняя при этом ключевые аспекты исходного изображения. Наш подход достигает передовых результатов в редактировании изображений на основе текста, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.
English
Recent advances in image editing, driven by image diffusion models, have
shown remarkable progress. However, significant challenges remain, as these
models often struggle to follow complex edit instructions accurately and
frequently compromise fidelity by altering key elements of the original image.
Simultaneously, video generation has made remarkable strides, with models that
effectively function as consistent and continuous world simulators. In this
paper, we propose merging these two fields by utilizing image-to-video models
for image editing. We reformulate image editing as a temporal process, using
pretrained video models to create smooth transitions from the original image to
the desired edit. This approach traverses the image manifold continuously,
ensuring consistent edits while preserving the original image's key aspects.
Our approach achieves state-of-the-art results on text-based image editing,
demonstrating significant improvements in both edit accuracy and image
preservation.Summary
AI-Generated Summary