Pro3D-Editor: Una prospettiva a viste progressive per un editing 3D coerente e preciso
Pro3D-Editor : A Progressive-Views Perspective for Consistent and Precise 3D Editing
May 31, 2025
Autori: Yang Zheng, Mengqi Huang, Nan Chen, Zhendong Mao
cs.AI
Abstract
L'editing 3D guidato da testo mira a modificare con precisione regioni 3D locali semanticamente rilevanti, offrendo un potenziale significativo per varie applicazioni pratiche che spaziano dai giochi 3D alla produzione cinematografica. I metodi esistenti seguono tipicamente un paradigma indiscriminato rispetto alla vista: modificano indiscriminatamente le viste 2D e le proiettano nuovamente nello spazio 3D. Tuttavia, trascurano le diverse interdipendenze tra le viste, risultando in un editing multi-vista incoerente. In questo studio, sosteniamo che un editing 3D coerente e ideale può essere raggiunto attraverso un paradigma progressivo delle viste, che propaga la semantica dell'editing dalla vista più saliente ad altre viste più sparse. Nello specifico, proponiamo Pro3D-Editor, un nuovo framework che include principalmente Primary-view Sampler, Key-view Render e Full-view Refiner. Il Primary-view Sampler campiona dinamicamente e modifica la vista più saliente come vista primaria. Il Key-view Render propaga accuratamente la semantica dell'editing dalla vista primaria ad altre viste chiave attraverso il suo Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA). Il Full-view Refiner modifica e affina l'oggetto 3D basandosi sulle viste multi-modificate. Esperimenti estensivi dimostrano che il nostro metodo supera i metodi esistenti in termini di accuratezza di editing e coerenza spaziale.
English
Text-guided 3D editing aims to precisely edit semantically relevant local 3D
regions, which has significant potential for various practical applications
ranging from 3D games to film production. Existing methods typically follow a
view-indiscriminate paradigm: editing 2D views indiscriminately and projecting
them back into 3D space. However, they overlook the different cross-view
interdependencies, resulting in inconsistent multi-view editing. In this study,
we argue that ideal consistent 3D editing can be achieved through a
progressive-views paradigm, which propagates editing semantics from
the editing-salient view to other editing-sparse views. Specifically, we
propose Pro3D-Editor, a novel framework, which mainly includes
Primary-view Sampler, Key-view Render, and Full-view Refiner. Primary-view
Sampler dynamically samples and edits the most editing-salient view as the
primary view. Key-view Render accurately propagates editing semantics from the
primary view to other key views through its Mixture-of-View-Experts Low-Rank
Adaption (MoVE-LoRA). Full-view Refiner edits and refines the 3D object based
on the edited multi-views. Extensive experiments demonstrate that our method
outperforms existing methods in editing accuracy and spatial consistency.