VoxHammer: Edición 3D precisa y coherente sin entrenamiento en espacio 3D nativo
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space
August 26, 2025
Autores: Lin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
cs.AI
Resumen
La edición local 3D de regiones específicas es crucial para la industria de los videojuegos y la interacción con robots. Los métodos recientes suelen editar imágenes renderizadas de múltiples vistas y luego reconstruir modelos 3D, pero enfrentan desafíos para preservar con precisión las regiones no editadas y la coherencia general. Inspirados por los modelos generativos 3D estructurados, proponemos VoxHammer, un enfoque novedoso que no requiere entrenamiento y realiza ediciones precisas y coherentes en el espacio latente 3D. Dado un modelo 3D, VoxHammer primero predice su trayectoria de inversión y obtiene sus latentes invertidos y tokens clave-valor en cada paso de tiempo. Posteriormente, en la fase de eliminación de ruido y edición, reemplazamos las características de eliminación de ruido de las regiones preservadas con los latentes invertidos correspondientes y los tokens clave-valor almacenados. Al retener estas características contextuales, este enfoque asegura una reconstrucción consistente de las áreas preservadas y una integración coherente de las partes editadas. Para evaluar la consistencia de las regiones preservadas, construimos Edit3D-Bench, un conjunto de datos anotado por humanos que comprende cientos de muestras, cada una con regiones de edición 3D cuidadosamente etiquetadas. Los experimentos demuestran que VoxHammer supera significativamente a los métodos existentes en términos de consistencia 3D de las regiones preservadas y calidad general. Nuestro método promete sintetizar datos editados de alta calidad en pares, sentando así la base de datos para la generación 3D en contexto. Visite nuestra página del proyecto en https://huanngzh.github.io/VoxHammer-Page/.
English
3D local editing of specified regions is crucial for game industry and robot
interaction. Recent methods typically edit rendered multi-view images and then
reconstruct 3D models, but they face challenges in precisely preserving
unedited regions and overall coherence. Inspired by structured 3D generative
models, we propose VoxHammer, a novel training-free approach that performs
precise and coherent editing in 3D latent space. Given a 3D model, VoxHammer
first predicts its inversion trajectory and obtains its inverted latents and
key-value tokens at each timestep. Subsequently, in the denoising and editing
phase, we replace the denoising features of preserved regions with the
corresponding inverted latents and cached key-value tokens. By retaining these
contextual features, this approach ensures consistent reconstruction of
preserved areas and coherent integration of edited parts. To evaluate the
consistency of preserved regions, we constructed Edit3D-Bench, a
human-annotated dataset comprising hundreds of samples, each with carefully
labeled 3D editing regions. Experiments demonstrate that VoxHammer
significantly outperforms existing methods in terms of both 3D consistency of
preserved regions and overall quality. Our method holds promise for
synthesizing high-quality edited paired data, thereby laying the data
foundation for in-context 3D generation. See our project page at
https://huanngzh.github.io/VoxHammer-Page/.