ChatPaper.aiChatPaper

Vías en el Manifold de Imágenes: Edición de Imágenes a través de Generación de Video

Pathways on the Image Manifold: Image Editing via Video Generation

November 25, 2024
Autores: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI

Resumen

Los avances recientes en edición de imágenes, impulsados por modelos de difusión de imágenes, han mostrado un progreso notable. Sin embargo, aún existen desafíos significativos, ya que estos modelos a menudo tienen dificultades para seguir instrucciones de edición complejas con precisión y comprometen frecuentemente la fidelidad al alterar elementos clave de la imagen original. Simultáneamente, la generación de videos ha avanzado notablemente, con modelos que funcionan efectivamente como simuladores de mundo consistentes y continuos. En este artículo, proponemos fusionar estos dos campos utilizando modelos de imagen a video para la edición de imágenes. Reformulamos la edición de imágenes como un proceso temporal, utilizando modelos de video preentrenados para crear transiciones suaves desde la imagen original hasta la edición deseada. Este enfoque recorre continuamente el espacio de imágenes, asegurando ediciones consistentes al tiempo que preserva los aspectos clave de la imagen original. Nuestro enfoque logra resultados de vanguardia en la edición de imágenes basada en texto, demostrando mejoras significativas tanto en la precisión de la edición como en la preservación de la imagen.
English
Recent advances in image editing, driven by image diffusion models, have shown remarkable progress. However, significant challenges remain, as these models often struggle to follow complex edit instructions accurately and frequently compromise fidelity by altering key elements of the original image. Simultaneously, video generation has made remarkable strides, with models that effectively function as consistent and continuous world simulators. In this paper, we propose merging these two fields by utilizing image-to-video models for image editing. We reformulate image editing as a temporal process, using pretrained video models to create smooth transitions from the original image to the desired edit. This approach traverses the image manifold continuously, ensuring consistent edits while preserving the original image's key aspects. Our approach achieves state-of-the-art results on text-based image editing, demonstrating significant improvements in both edit accuracy and image preservation.

Summary

AI-Generated Summary

PDF372November 27, 2024