ChatPaper.aiChatPaper

이미지 매니폴드 상의 경로: 비디오 생성을 통한 이미지 편집

Pathways on the Image Manifold: Image Editing via Video Generation

November 25, 2024
저자: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI

초록

이미지 확산 모델에 의해 주도되는 이미지 편집의 최근 발전은 현저한 진전을 보여주고 있다. 그러나 이러한 모델은 종종 복잡한 편집 지시를 정확하게 따르기 어렵고, 원본 이미지의 주요 요소를 변경함으로써 충실성을 희생하는 문제가 남아있다. 동시에, 비디오 생성은 지속적이고 일관된 세계 시뮬레이터로 효과적으로 작동하는 모델들로 현저한 발전을 이루었다. 본 논문에서는 이미지 편집을 위해 이미지-비디오 모델을 활용하여 이 두 분야를 통합하는 것을 제안한다. 우리는 이미지 편집을 시간적 과정으로 재정의하고, 사전 훈련된 비디오 모델을 사용하여 원본 이미지에서 원하는 편집으로의 부드러운 전환을 만들어낸다. 이 접근 방식은 이미지 manifold를 연속적으로 횡단함으로써 일관된 편집을 보장하면서도 원본 이미지의 주요 측면을 보존한다. 우리의 방법은 텍스트 기반 이미지 편집에서 최첨단 결과를 달성하며, 편집 정확도와 이미지 보존 모두에서 상당한 개선을 시연하고 있다.
English
Recent advances in image editing, driven by image diffusion models, have shown remarkable progress. However, significant challenges remain, as these models often struggle to follow complex edit instructions accurately and frequently compromise fidelity by altering key elements of the original image. Simultaneously, video generation has made remarkable strides, with models that effectively function as consistent and continuous world simulators. In this paper, we propose merging these two fields by utilizing image-to-video models for image editing. We reformulate image editing as a temporal process, using pretrained video models to create smooth transitions from the original image to the desired edit. This approach traverses the image manifold continuously, ensuring consistent edits while preserving the original image's key aspects. Our approach achieves state-of-the-art results on text-based image editing, demonstrating significant improvements in both edit accuracy and image preservation.

Summary

AI-Generated Summary

PDF372November 27, 2024