Pro3D-Editor: Uma Perspectiva de Visões Progressivas para Edição 3D Consistente e Precisão

Resumo

A edição 3D guiada por texto visa editar com precisão regiões locais 3D semanticamente relevantes, o que tem um potencial significativo para diversas aplicações práticas, desde jogos 3D até produção cinematográfica. Os métodos existentes geralmente seguem um paradigma indiferenciado por visão: editam indiscriminadamente as visões 2D e as projetam de volta no espaço 3D. No entanto, eles ignoram as diferentes interdependências entre visões, resultando em edição multivisão inconsistente. Neste estudo, argumentamos que a edição 3D consistente ideal pode ser alcançada por meio de um paradigma de visões progressivas, que propaga a semântica de edição da visão mais saliente para edição para outras visões esparsas em edição. Especificamente, propomos o Pro3D-Editor, uma nova estrutura que inclui principalmente o Amostrador de Visão Primária, o Renderizador de Visão-Chave e o Refinador de Visão Completa. O Amostrador de Visão Primária dinamicamente amostra e edita a visão mais saliente para edição como a visão primária. O Renderizador de Visão-Chave propaga com precisão a semântica de edição da visão primária para outras visões-chave por meio de sua Adaptação de Baixa Classificação de Mistura de Especialistas de Visão (MoVE-LoRA). O Refinador de Visão Completa edita e refina o objeto 3D com base nas múltiplas visões editadas. Experimentos extensivos demonstram que nosso método supera os métodos existentes em precisão de edição e consistência espacial.

English

Text-guided 3D editing aims to precisely edit semantically relevant local 3D regions, which has significant potential for various practical applications ranging from 3D games to film production. Existing methods typically follow a view-indiscriminate paradigm: editing 2D views indiscriminately and projecting them back into 3D space. However, they overlook the different cross-view interdependencies, resulting in inconsistent multi-view editing. In this study, we argue that ideal consistent 3D editing can be achieved through a progressive-views paradigm, which propagates editing semantics from the editing-salient view to other editing-sparse views. Specifically, we propose Pro3D-Editor, a novel framework, which mainly includes Primary-view Sampler, Key-view Render, and Full-view Refiner. Primary-view Sampler dynamically samples and edits the most editing-salient view as the primary view. Key-view Render accurately propagates editing semantics from the primary view to other key views through its Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA). Full-view Refiner edits and refines the 3D object based on the edited multi-views. Extensive experiments demonstrate that our method outperforms existing methods in editing accuracy and spatial consistency.

Pro3D-Editor: Uma Perspectiva de Visões Progressivas para Edição 3D Consistente e Precisão

Pro3D-Editor : A Progressive-Views Perspective for Consistent and Precise 3D Editing

Resumo

Support