Pro3D-Editor: Eine Progressive-Views-Perspektive für konsistentes und präzises 3D-Editing
Pro3D-Editor : A Progressive-Views Perspective for Consistent and Precise 3D Editing
May 31, 2025
Autoren: Yang Zheng, Mengqi Huang, Nan Chen, Zhendong Mao
cs.AI
Zusammenfassung
Textgesteuerte 3D-Bearbeitung zielt darauf ab, semantisch relevante lokale 3D-Regionen präzise zu bearbeiten, was ein erhebliches Potenzial für verschiedene praktische Anwendungen, von 3D-Spielen bis hin zur Filmproduktion, birgt. Bestehende Methoden folgen typischerweise einem sichtunabhängigen Paradigma: Sie bearbeiten 2D-Ansichten undifferenziert und projizieren sie zurück in den 3D-Raum. Dabei werden jedoch die unterschiedlichen abhängigkeiten zwischen den Ansichten übersehen, was zu inkonsistenter Multi-View-Bearbeitung führt. In dieser Studie argumentieren wir, dass eine ideale konsistente 3D-Bearbeitung durch ein progressives Ansichten-Paradigma erreicht werden kann, das Bearbeitungssemantik von der bearbeitungsrelevanten Ansicht auf andere bearbeitungssparsame Ansichten überträgt. Konkret schlagen wir Pro3D-Editor vor, ein neuartiges Framework, das hauptsächlich aus Primary-view Sampler, Key-view Render und Full-view Refiner besteht. Der Primary-view Sampler wählt dynamisch die bearbeitungsrelevanteste Ansicht als primäre Ansicht aus und bearbeitet sie. Der Key-view Render überträgt die Bearbeitungssemantik präzise von der primären Ansicht auf andere Schlüsselansichten durch seine Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA). Der Full-view Refiner bearbeitet und verfeinert das 3D-Objekt basierend auf den bearbeiteten Multi-Views. Umfangreiche Experimente zeigen, dass unsere Methode bestehende Methoden in Bezug auf Bearbeitungsgenauigkeit und räumliche Konsistenz übertrifft.
English
Text-guided 3D editing aims to precisely edit semantically relevant local 3D
regions, which has significant potential for various practical applications
ranging from 3D games to film production. Existing methods typically follow a
view-indiscriminate paradigm: editing 2D views indiscriminately and projecting
them back into 3D space. However, they overlook the different cross-view
interdependencies, resulting in inconsistent multi-view editing. In this study,
we argue that ideal consistent 3D editing can be achieved through a
progressive-views paradigm, which propagates editing semantics from
the editing-salient view to other editing-sparse views. Specifically, we
propose Pro3D-Editor, a novel framework, which mainly includes
Primary-view Sampler, Key-view Render, and Full-view Refiner. Primary-view
Sampler dynamically samples and edits the most editing-salient view as the
primary view. Key-view Render accurately propagates editing semantics from the
primary view to other key views through its Mixture-of-View-Experts Low-Rank
Adaption (MoVE-LoRA). Full-view Refiner edits and refines the 3D object based
on the edited multi-views. Extensive experiments demonstrate that our method
outperforms existing methods in editing accuracy and spatial consistency.