Chemins sur la variété des images : Édition d'images via la génération de vidéos
Pathways on the Image Manifold: Image Editing via Video Generation
November 25, 2024
Auteurs: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI
Résumé
Les récentes avancées en matière de retouche d'images, basées sur des modèles de diffusion d'images, ont montré des progrès remarquables. Cependant, des défis importants subsistent, car ces modèles ont souvent du mal à suivre avec précision des instructions de retouche complexes et compromettent fréquemment la fidélité en altérant des éléments clés de l'image d'origine. Parallèlement, la génération de vidéos a fait des progrès remarquables, avec des modèles qui fonctionnent efficacement en tant que simulateurs de monde cohérents et continus. Dans cet article, nous proposons de fusionner ces deux domaines en utilisant des modèles d'images vers vidéos pour la retouche d'images. Nous reformulons la retouche d'images en un processus temporel, en utilisant des modèles vidéo pré-entraînés pour créer des transitions fluides de l'image d'origine à la retouche souhaitée. Cette approche parcourt de manière continue la variété d'images, garantissant des retouches cohérentes tout en préservant les aspects clés de l'image d'origine. Notre approche obtient des résultats de pointe en matière de retouche d'images basée sur du texte, démontrant des améliorations significatives tant en termes de précision de la retouche que de préservation de l'image.
English
Recent advances in image editing, driven by image diffusion models, have
shown remarkable progress. However, significant challenges remain, as these
models often struggle to follow complex edit instructions accurately and
frequently compromise fidelity by altering key elements of the original image.
Simultaneously, video generation has made remarkable strides, with models that
effectively function as consistent and continuous world simulators. In this
paper, we propose merging these two fields by utilizing image-to-video models
for image editing. We reformulate image editing as a temporal process, using
pretrained video models to create smooth transitions from the original image to
the desired edit. This approach traverses the image manifold continuously,
ensuring consistent edits while preserving the original image's key aspects.
Our approach achieves state-of-the-art results on text-based image editing,
demonstrating significant improvements in both edit accuracy and image
preservation.