インスタントドラッグ:ドラッグベースの画像編集における相互作用性の向上
InstantDrag: Improving Interactivity in Drag-based Image Editing
September 13, 2024
著者: Joonghyuk Shin, Daehyeon Choi, Jaesik Park
cs.AI
要旨
最近、ドラッグベースの画像編集はそのインタラクティブ性と精度から人気を集めています。しかし、テキストから画像を生成するモデルが1秒以内にサンプルを生成できる能力にも関わらず、ドラッグ編集はユーザーのインタラクションを正確に反映しつつ画像コンテンツを維持するという課題により遅れています。既存のアプローチの一部は、画像ごとの計算集約的な最適化や複雑なガイダンスベースの手法に依存しており、移動可能な領域やテキストプロンプトなどの追加入力が必要となり、それにより編集プロセスのインタラクティブ性が損なわれています。私たちは、最適化フリーのパイプラインであるInstantDragを紹介します。この手法は、インタラクティブ性と速度を向上させ、画像とドラッグ指示のみを入力として必要とします。InstantDragは、2つの注意深く設計されたネットワークで構成されています。それは、ドラッグ条件つきの光流生成器(FlowGen)と光流条件つきの拡散モデル(FlowDiffusion)です。InstantDragは、動き生成と動き条件つき画像生成のタスクを分解することで、実世界のビデオデータセットでのドラッグベースの画像編集のための動きダイナミクスを学習します。私たちは、顔のビデオデータセットや一般的なシーンでの実験を通じて、InstantDragがマスクやテキストプロンプトなしで高速で写真のような編集を行う能力を示します。これらの結果は、私たちのアプローチがドラッグベースの画像編集を処理する効率性を強調し、インタラクティブでリアルタイムなアプリケーションにとって有望な解決策となることを示しています。
English
Drag-based image editing has recently gained popularity for its interactivity
and precision. However, despite the ability of text-to-image models to generate
samples within a second, drag editing still lags behind due to the challenge of
accurately reflecting user interaction while maintaining image content. Some
existing approaches rely on computationally intensive per-image optimization or
intricate guidance-based methods, requiring additional inputs such as masks for
movable regions and text prompts, thereby compromising the interactivity of the
editing process. We introduce InstantDrag, an optimization-free pipeline that
enhances interactivity and speed, requiring only an image and a drag
instruction as input. InstantDrag consists of two carefully designed networks:
a drag-conditioned optical flow generator (FlowGen) and an optical
flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion
dynamics for drag-based image editing in real-world video datasets by
decomposing the task into motion generation and motion-conditioned image
generation. We demonstrate InstantDrag's capability to perform fast,
photo-realistic edits without masks or text prompts through experiments on
facial video datasets and general scenes. These results highlight the
efficiency of our approach in handling drag-based image editing, making it a
promising solution for interactive, real-time applications.Summary
AI-Generated Summary