Pro3D-Editor : Une perspective progressive pour un éditing 3D cohérent et précis
Pro3D-Editor : A Progressive-Views Perspective for Consistent and Precise 3D Editing
May 31, 2025
Auteurs: Yang Zheng, Mengqi Huang, Nan Chen, Zhendong Mao
cs.AI
Résumé
L'édition 3D guidée par texte vise à modifier avec précision des régions locales 3D sémantiquement pertinentes, ce qui présente un potentiel significatif pour diverses applications pratiques allant des jeux 3D à la production cinématographique. Les méthodes existantes suivent généralement un paradigme indifférencié par rapport aux vues : elles modifient les vues 2D de manière indiscriminée et les projettent ensuite dans l'espace 3D. Cependant, elles négligent les différentes interdépendances entre les vues, ce qui entraîne une incohérence dans l'édition multi-vues. Dans cette étude, nous soutenons qu'une édition 3D cohérente et idéale peut être réalisée grâce à un paradigme de vues progressives, qui propage la sémantique d'édition de la vue la plus saillante vers les vues moins denses en modifications. Plus précisément, nous proposons Pro3D-Editor, un nouveau framework qui comprend principalement un Échantillonneur de Vue Primaire, un Rendu de Vue Clé et un Raffineur de Vue Complète. L'Échantillonneur de Vue Primaire sélectionne et modifie dynamiquement la vue la plus saillante en termes d'édition comme vue primaire. Le Rendu de Vue Clé propage avec précision la sémantique d'édition de la vue primaire vers les autres vues clés grâce à son adaptation à faible rang basée sur un mélange d'experts de vues (MoVE-LoRA). Le Raffineur de Vue Complète modifie et affine l'objet 3D en se basant sur les vues multi-modifiées. Des expériences approfondies démontrent que notre méthode surpasse les méthodes existantes en termes de précision d'édition et de cohérence spatiale.
English
Text-guided 3D editing aims to precisely edit semantically relevant local 3D
regions, which has significant potential for various practical applications
ranging from 3D games to film production. Existing methods typically follow a
view-indiscriminate paradigm: editing 2D views indiscriminately and projecting
them back into 3D space. However, they overlook the different cross-view
interdependencies, resulting in inconsistent multi-view editing. In this study,
we argue that ideal consistent 3D editing can be achieved through a
progressive-views paradigm, which propagates editing semantics from
the editing-salient view to other editing-sparse views. Specifically, we
propose Pro3D-Editor, a novel framework, which mainly includes
Primary-view Sampler, Key-view Render, and Full-view Refiner. Primary-view
Sampler dynamically samples and edits the most editing-salient view as the
primary view. Key-view Render accurately propagates editing semantics from the
primary view to other key views through its Mixture-of-View-Experts Low-Rank
Adaption (MoVE-LoRA). Full-view Refiner edits and refines the 3D object based
on the edited multi-views. Extensive experiments demonstrate that our method
outperforms existing methods in editing accuracy and spatial consistency.