Caminhos na Manifold de Imagens: Edição de Imagens via Geração de Vídeo
Pathways on the Image Manifold: Image Editing via Video Generation
November 25, 2024
Autores: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI
Resumo
Os avanços recentes na edição de imagens, impulsionados por modelos de difusão de imagens, têm mostrado um progresso notável. No entanto, desafios significativos permanecem, já que esses modelos frequentemente enfrentam dificuldades para seguir instruções de edição complexas com precisão e comprometem frequentemente a fidelidade ao alterar elementos-chave da imagem original. Simultaneamente, a geração de vídeos fez avanços notáveis, com modelos que funcionam efetivamente como simuladores de mundo consistentes e contínuos. Neste artigo, propomos unir esses dois campos ao utilizar modelos de imagem-para-vídeo para edição de imagens. Reformulamos a edição de imagens como um processo temporal, utilizando modelos de vídeo pré-treinados para criar transições suaves da imagem original para a edição desejada. Esta abordagem percorre continuamente o espaço de imagens, garantindo edições consistentes ao mesmo tempo em que preserva os aspectos-chave da imagem original. Nossa abordagem alcança resultados de ponta na edição de imagens baseada em texto, demonstrando melhorias significativas tanto na precisão da edição quanto na preservação da imagem.
English
Recent advances in image editing, driven by image diffusion models, have
shown remarkable progress. However, significant challenges remain, as these
models often struggle to follow complex edit instructions accurately and
frequently compromise fidelity by altering key elements of the original image.
Simultaneously, video generation has made remarkable strides, with models that
effectively function as consistent and continuous world simulators. In this
paper, we propose merging these two fields by utilizing image-to-video models
for image editing. We reformulate image editing as a temporal process, using
pretrained video models to create smooth transitions from the original image to
the desired edit. This approach traverses the image manifold continuously,
ensuring consistent edits while preserving the original image's key aspects.
Our approach achieves state-of-the-art results on text-based image editing,
demonstrating significant improvements in both edit accuracy and image
preservation.Summary
AI-Generated Summary