ChatPaper.aiChatPaper

VoxHammer: Edição 3D Precisa e Coerente sem Treinamento no Espaço 3D Nativo

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

August 26, 2025
Autores: Lin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
cs.AI

Resumo

A edição local 3D de regiões especificadas é crucial para a indústria de jogos e interação com robôs. Métodos recentes geralmente editam imagens renderizadas de múltiplas vistas e, em seguida, reconstroem modelos 3D, mas enfrentam desafios em preservar com precisão regiões não editadas e a coerência geral. Inspirados por modelos generativos 3D estruturados, propomos o VoxHammer, uma nova abordagem livre de treinamento que realiza edições precisas e coerentes no espaço latente 3D. Dado um modelo 3D, o VoxHammer primeiro prevê sua trajetória de inversão e obtém seus latentes invertidos e tokens de chave-valor em cada passo de tempo. Posteriormente, na fase de denoising e edição, substituímos as características de denoising das regiões preservadas pelos latentes invertidos correspondentes e pelos tokens de chave-valor armazenados. Ao reter essas características contextuais, essa abordagem garante uma reconstrução consistente das áreas preservadas e uma integração coerente das partes editadas. Para avaliar a consistência das regiões preservadas, construímos o Edit3D-Bench, um conjunto de dados anotado por humanos que compreende centenas de amostras, cada uma com regiões de edição 3D cuidadosamente rotuladas. Experimentos demonstram que o VoxHammer supera significativamente os métodos existentes em termos de consistência 3D das regiões preservadas e qualidade geral. Nosso método promete sintetizar dados editados emparelhados de alta qualidade, estabelecendo assim a base de dados para geração 3D em contexto. Consulte nossa página do projeto em https://huanngzh.github.io/VoxHammer-Page/.
English
3D local editing of specified regions is crucial for game industry and robot interaction. Recent methods typically edit rendered multi-view images and then reconstruct 3D models, but they face challenges in precisely preserving unedited regions and overall coherence. Inspired by structured 3D generative models, we propose VoxHammer, a novel training-free approach that performs precise and coherent editing in 3D latent space. Given a 3D model, VoxHammer first predicts its inversion trajectory and obtains its inverted latents and key-value tokens at each timestep. Subsequently, in the denoising and editing phase, we replace the denoising features of preserved regions with the corresponding inverted latents and cached key-value tokens. By retaining these contextual features, this approach ensures consistent reconstruction of preserved areas and coherent integration of edited parts. To evaluate the consistency of preserved regions, we constructed Edit3D-Bench, a human-annotated dataset comprising hundreds of samples, each with carefully labeled 3D editing regions. Experiments demonstrate that VoxHammer significantly outperforms existing methods in terms of both 3D consistency of preserved regions and overall quality. Our method holds promise for synthesizing high-quality edited paired data, thereby laying the data foundation for in-context 3D generation. See our project page at https://huanngzh.github.io/VoxHammer-Page/.
PDF392August 27, 2025