ChatPaper.aiChatPaper

画像多様体上の経路:ビデオ生成を通じた画像編集

Pathways on the Image Manifold: Image Editing via Video Generation

November 25, 2024
著者: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI

要旨

画像拡散モデルによって推進された画像編集の最近の進歩は、著しい進展を示しています。しかしながら、これらのモデルはしばしば複雑な編集指示に正確に従うことが難しく、元の画像の主要な要素を変更することで忠実度を損なうという重要な課題が残っています。同時に、ビデオ生成は著しい進歩を遂げ、一貫して連続的な世界シミュレーターとして効果的に機能するモデルが登場しています。本論文では、画像編集において画像からビデオへのモデルを利用することで、これら二つの分野を統合することを提案します。我々は画像編集を一連のプロセスとして再定義し、事前学習されたビデオモデルを使用して元の画像から所望の編集への滑らかな遷移を作成します。このアプローチは画像多様体を連続的に移動し、元の画像の主要な側面を保持しながら一貫した編集を確保します。我々のアプローチは、テキストベースの画像編集において最先端の結果を達成し、編集の正確さと画像の保存の両方で著しい改善を示しています。
English
Recent advances in image editing, driven by image diffusion models, have shown remarkable progress. However, significant challenges remain, as these models often struggle to follow complex edit instructions accurately and frequently compromise fidelity by altering key elements of the original image. Simultaneously, video generation has made remarkable strides, with models that effectively function as consistent and continuous world simulators. In this paper, we propose merging these two fields by utilizing image-to-video models for image editing. We reformulate image editing as a temporal process, using pretrained video models to create smooth transitions from the original image to the desired edit. This approach traverses the image manifold continuously, ensuring consistent edits while preserving the original image's key aspects. Our approach achieves state-of-the-art results on text-based image editing, demonstrating significant improvements in both edit accuracy and image preservation.

Summary

AI-Generated Summary

PDF372November 27, 2024