Paden op het Beeldmanifold: Beeldbewerking via Videogeneratie
Pathways on the Image Manifold: Image Editing via Video Generation
November 25, 2024
Auteurs: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI
Samenvatting
Recente ontwikkelingen op het gebied van beeldbewerking, aangedreven door beeldverspreidingsmodellen, hebben opmerkelijke vooruitgang laten zien. Er blijven echter aanzienlijke uitdagingen bestaan, aangezien deze modellen vaak moeite hebben om complexe bewerkingsinstructies nauwkeurig op te volgen en regelmatig de geloofwaardigheid compromitteren door belangrijke elementen van het originele beeld te wijzigen. Tegelijkertijd heeft videogeneratie opmerkelijke vooruitgang geboekt, met modellen die effectief functioneren als consistente en continue wereldsimulatoren. In dit artikel stellen we voor om deze twee gebieden te combineren door gebruik te maken van beeld-naar-video modellen voor beeldbewerking. We herformuleren beeldbewerking als een tijdsgebonden proces, waarbij vooraf getrainde videomodellen worden gebruikt om vloeiende overgangen te creëren van het originele beeld naar de gewenste bewerking. Deze aanpak doorkruist continu de beeldmanifold, waarbij consistente bewerkingen worden gegarandeerd terwijl de belangrijkste aspecten van het originele beeld behouden blijven. Onze aanpak behaalt state-of-the-art resultaten op tekstgebaseerde beeldbewerking, waarbij aanzienlijke verbeteringen worden aangetoond op het gebied van zowel bewerkingsnauwkeurigheid als beeldbehoud.
English
Recent advances in image editing, driven by image diffusion models, have
shown remarkable progress. However, significant challenges remain, as these
models often struggle to follow complex edit instructions accurately and
frequently compromise fidelity by altering key elements of the original image.
Simultaneously, video generation has made remarkable strides, with models that
effectively function as consistent and continuous world simulators. In this
paper, we propose merging these two fields by utilizing image-to-video models
for image editing. We reformulate image editing as a temporal process, using
pretrained video models to create smooth transitions from the original image to
the desired edit. This approach traverses the image manifold continuously,
ensuring consistent edits while preserving the original image's key aspects.
Our approach achieves state-of-the-art results on text-based image editing,
demonstrating significant improvements in both edit accuracy and image
preservation.Summary
AI-Generated Summary