ChatPaper.aiChatPaper

Pfade auf dem Bildmanifold: Bildbearbeitung durch Videogenerierung

Pathways on the Image Manifold: Image Editing via Video Generation

November 25, 2024
Autoren: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte in der Bildbearbeitung, angetrieben von Bildverdünnungsmodellen, bemerkenswerte Fortschritte gezeigt. Es bestehen jedoch weiterhin bedeutende Herausforderungen, da diese Modelle oft Schwierigkeiten haben, komplexe Bearbeitungsanweisungen genau zu befolgen und häufig die Treue beeinträchtigen, indem sie Schlüsselelemente des Originalbildes verändern. Gleichzeitig hat die Videogenerierung bemerkenswerte Fortschritte gemacht, mit Modellen, die effektiv als konsistente und kontinuierliche Weltsimulatoren fungieren. In diesem Paper schlagen wir vor, diese beiden Bereiche zu verschmelzen, indem wir Bild-zu-Video-Modelle für die Bildbearbeitung nutzen. Wir formulieren die Bildbearbeitung als einen zeitlichen Prozess um, indem wir vortrainierte Videomodelle verwenden, um sanfte Übergänge vom Originalbild zur gewünschten Bearbeitung zu erstellen. Dieser Ansatz durchläuft die Bild-Mannigfaltigkeit kontinuierlich und gewährleistet konsistente Bearbeitungen, während die Schlüsselelemente des Originalbildes erhalten bleiben. Unser Ansatz erzielt Spitzenresultate bei textbasierter Bildbearbeitung und zeigt signifikante Verbesserungen sowohl bei der Bearbeitungsgenauigkeit als auch bei der Bildbewahrung.
English
Recent advances in image editing, driven by image diffusion models, have shown remarkable progress. However, significant challenges remain, as these models often struggle to follow complex edit instructions accurately and frequently compromise fidelity by altering key elements of the original image. Simultaneously, video generation has made remarkable strides, with models that effectively function as consistent and continuous world simulators. In this paper, we propose merging these two fields by utilizing image-to-video models for image editing. We reformulate image editing as a temporal process, using pretrained video models to create smooth transitions from the original image to the desired edit. This approach traverses the image manifold continuously, ensuring consistent edits while preserving the original image's key aspects. Our approach achieves state-of-the-art results on text-based image editing, demonstrating significant improvements in both edit accuracy and image preservation.

Summary

AI-Generated Summary

PDF372November 27, 2024