Shape-for-Motion: 3Dプロキシを用いた精密で一貫性のあるビデオ編集
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy
June 27, 2025
著者: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI
要旨
深層生成モデリングの最近の進展により、ビデオ合成における前例のない機会が開かれました。しかし、現実世界のアプリケーションでは、ユーザーはしばしば、正確で一貫した制御を伴い、自身の創造的な編集意図を忠実に実現するツールを求めています。既存の手法で達成された進展にもかかわらず、ユーザーの意図と細粒度で整合させることは未解決かつ困難な問題です。本研究では、Shape-for-Motionという新しいフレームワークを提案します。このフレームワークは、正確で一貫したビデオ編集のための3Dプロキシを組み込んでいます。Shape-for-Motionは、入力ビデオ内のターゲットオブジェクトを時間的に一貫したメッシュ、すなわち3Dプロキシに変換することでこれを実現し、編集をプロキシ上で直接行い、その後ビデオフレームに推論し直すことを可能にします。編集プロセスを簡素化するために、我々は新しいデュアルプロパゲーション戦略を設計しました。これにより、ユーザーは単一フレームの3Dメッシュ上で編集を行い、その編集が自動的に他のフレームの3Dメッシュに伝播されます。異なるフレームの3Dメッシュはさらに2D空間に投影され、編集されたジオメトリとテクスチャレンダリングを生成し、これらは編集結果を生成するための分離型ビデオ拡散モデルへの入力として機能します。我々のフレームワークは、ポーズ編集、回転、スケーリング、平行移動、テクスチャ変更、オブジェクト合成など、ビデオフレーム全体にわたる様々な正確で物理的に一貫した操作をサポートします。我々のアプローチは、高品質で制御可能なビデオ編集ワークフローに向けた重要な一歩を示しています。広範な実験により、我々のアプローチの優位性と有効性が実証されています。プロジェクトページ: https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented
opportunities for video synthesis. In real-world applications, however, users
often seek tools to faithfully realize their creative editing intentions with
precise and consistent control. Despite the progress achieved by existing
methods, ensuring fine-grained alignment with user intentions remains an open
and challenging problem. In this work, we present Shape-for-Motion, a novel
framework that incorporates a 3D proxy for precise and consistent video
editing. Shape-for-Motion achieves this by converting the target object in the
input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be
performed directly on the proxy and then inferred back to the video frames. To
simplify the editing process, we design a novel Dual-Propagation Strategy that
allows users to perform edits on the 3D mesh of a single frame, and the edits
are then automatically propagated to the 3D meshes of the other frames. The 3D
meshes for different frames are further projected onto the 2D space to produce
the edited geometry and texture renderings, which serve as inputs to a
decoupled video diffusion model for generating edited results. Our framework
supports various precise and physically-consistent manipulations across the
video frames, including pose editing, rotation, scaling, translation, texture
modification, and object composition. Our approach marks a key step toward
high-quality, controllable video editing workflows. Extensive experiments
demonstrate the superiority and effectiveness of our approach. Project page:
https://shapeformotion.github.io/