Pro3D-Editor:一貫性と精密性を実現するプログレッシブビューベースの3D編集手法
Pro3D-Editor : A Progressive-Views Perspective for Consistent and Precise 3D Editing
May 31, 2025
著者: Yang Zheng, Mengqi Huang, Nan Chen, Zhendong Mao
cs.AI
要旨
テキストガイドによる3D編集は、意味的に関連する局所的な3D領域を正確に編集することを目的としており、3Dゲームから映画制作まで、さまざまな実用的なアプリケーションにおいて大きな可能性を秘めています。既存の手法は通常、ビューを区別せずに2Dビューを編集し、それを3D空間に投影するというパラダイムに従っています。しかし、これらの手法は異なるビュー間の相互依存関係を考慮しておらず、結果として一貫性のないマルチビュー編集が行われます。本研究では、理想的な一貫性のある3D編集は、編集が顕著なビューから編集が疎なビューへと編集の意味を伝播させる「プログレッシブビュー」パラダイムを通じて達成できると主張します。具体的には、Primary-view Sampler、Key-view Render、Full-view Refinerを主な構成要素とする新しいフレームワーク「Pro3D-Editor」を提案します。Primary-view Samplerは、編集が最も顕著なビューを動的にサンプリングし、それをプライマリビューとして編集します。Key-view Renderは、Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA)を通じて、プライマリビューから他のキービューへ編集の意味を正確に伝播させます。Full-view Refinerは、編集されたマルチビューに基づいて3Dオブジェクトを編集および洗練します。広範な実験により、本手法が編集の精度と空間的一貫性において既存の手法を凌駕することが実証されています。
English
Text-guided 3D editing aims to precisely edit semantically relevant local 3D
regions, which has significant potential for various practical applications
ranging from 3D games to film production. Existing methods typically follow a
view-indiscriminate paradigm: editing 2D views indiscriminately and projecting
them back into 3D space. However, they overlook the different cross-view
interdependencies, resulting in inconsistent multi-view editing. In this study,
we argue that ideal consistent 3D editing can be achieved through a
progressive-views paradigm, which propagates editing semantics from
the editing-salient view to other editing-sparse views. Specifically, we
propose Pro3D-Editor, a novel framework, which mainly includes
Primary-view Sampler, Key-view Render, and Full-view Refiner. Primary-view
Sampler dynamically samples and edits the most editing-salient view as the
primary view. Key-view Render accurately propagates editing semantics from the
primary view to other key views through its Mixture-of-View-Experts Low-Rank
Adaption (MoVE-LoRA). Full-view Refiner edits and refines the 3D object based
on the edited multi-views. Extensive experiments demonstrate that our method
outperforms existing methods in editing accuracy and spatial consistency.