Pro3D-Editor: Een Progressief-Weergave Perspectief voor Consistente en Nauwkeurige 3D-Bewerking
Pro3D-Editor : A Progressive-Views Perspective for Consistent and Precise 3D Editing
May 31, 2025
Auteurs: Yang Zheng, Mengqi Huang, Nan Chen, Zhendong Mao
cs.AI
Samenvatting
Tekstgestuurde 3D-bewerking heeft als doel om semantisch relevante lokale 3D-gebieden nauwkeurig te bewerken, wat aanzienlijk potentieel biedt voor diverse praktische toepassingen, variërend van 3D-games tot filmproductie. Bestaande methoden volgen doorgaans een view-ongedifferentieerd paradigma: 2D-weergaven worden ongericht bewerkt en teruggeprojecteerd in de 3D-ruimte. Hierbij worden echter de verschillende kruisweergave-afhankelijkheden over het hoofd gezien, wat resulteert in inconsistente multi-view-bewerkingen. In deze studie stellen wij dat ideale consistente 3D-bewerking kan worden bereikt via een progressieve-weergaven-paradigma, waarbij bewerkingssemantiek wordt doorgegeven van de meest bewerkingsrelevante weergave naar andere bewerkingsarme weergaven. Specifiek stellen wij Pro3D-Editor voor, een nieuw framework dat voornamelijk bestaat uit een Primary-view Sampler, Key-view Render en Full-view Refiner. De Primary-view Sampler bemonstert en bewerkt dynamisch de meest bewerkingsrelevante weergave als de primaire weergave. De Key-view Render verspreidt de bewerkingssemantiek nauwkeurig van de primaire weergave naar andere sleutelweergaven via zijn Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA). De Full-view Refiner bewerkt en verfijnt het 3D-object op basis van de bewerkte multi-weergaven. Uitgebreide experimenten tonen aan dat onze methode superieur is aan bestaande methoden wat betreft bewerkingsnauwkeurigheid en ruimtelijke consistentie.
English
Text-guided 3D editing aims to precisely edit semantically relevant local 3D
regions, which has significant potential for various practical applications
ranging from 3D games to film production. Existing methods typically follow a
view-indiscriminate paradigm: editing 2D views indiscriminately and projecting
them back into 3D space. However, they overlook the different cross-view
interdependencies, resulting in inconsistent multi-view editing. In this study,
we argue that ideal consistent 3D editing can be achieved through a
progressive-views paradigm, which propagates editing semantics from
the editing-salient view to other editing-sparse views. Specifically, we
propose Pro3D-Editor, a novel framework, which mainly includes
Primary-view Sampler, Key-view Render, and Full-view Refiner. Primary-view
Sampler dynamically samples and edits the most editing-salient view as the
primary view. Key-view Render accurately propagates editing semantics from the
primary view to other key views through its Mixture-of-View-Experts Low-Rank
Adaption (MoVE-LoRA). Full-view Refiner edits and refines the 3D object based
on the edited multi-views. Extensive experiments demonstrate that our method
outperforms existing methods in editing accuracy and spatial consistency.