VoxHammer: Edición 3D precisa y coherente sin entrenamiento en espacio 3D nativo

Resumen

La edición local 3D de regiones específicas es crucial para la industria de los videojuegos y la interacción con robots. Los métodos recientes suelen editar imágenes renderizadas de múltiples vistas y luego reconstruir modelos 3D, pero enfrentan desafíos para preservar con precisión las regiones no editadas y la coherencia general. Inspirados por los modelos generativos 3D estructurados, proponemos VoxHammer, un enfoque novedoso que no requiere entrenamiento y realiza ediciones precisas y coherentes en el espacio latente 3D. Dado un modelo 3D, VoxHammer primero predice su trayectoria de inversión y obtiene sus latentes invertidos y tokens clave-valor en cada paso de tiempo. Posteriormente, en la fase de eliminación de ruido y edición, reemplazamos las características de eliminación de ruido de las regiones preservadas con los latentes invertidos correspondientes y los tokens clave-valor almacenados. Al retener estas características contextuales, este enfoque asegura una reconstrucción consistente de las áreas preservadas y una integración coherente de las partes editadas. Para evaluar la consistencia de las regiones preservadas, construimos Edit3D-Bench, un conjunto de datos anotado por humanos que comprende cientos de muestras, cada una con regiones de edición 3D cuidadosamente etiquetadas. Los experimentos demuestran que VoxHammer supera significativamente a los métodos existentes en términos de consistencia 3D de las regiones preservadas y calidad general. Nuestro método promete sintetizar datos editados de alta calidad en pares, sentando así la base de datos para la generación 3D en contexto. Visite nuestra página del proyecto en https://huanngzh.github.io/VoxHammer-Page/.

English

3D local editing of specified regions is crucial for game industry and robot interaction. Recent methods typically edit rendered multi-view images and then reconstruct 3D models, but they face challenges in precisely preserving unedited regions and overall coherence. Inspired by structured 3D generative models, we propose VoxHammer, a novel training-free approach that performs precise and coherent editing in 3D latent space. Given a 3D model, VoxHammer first predicts its inversion trajectory and obtains its inverted latents and key-value tokens at each timestep. Subsequently, in the denoising and editing phase, we replace the denoising features of preserved regions with the corresponding inverted latents and cached key-value tokens. By retaining these contextual features, this approach ensures consistent reconstruction of preserved areas and coherent integration of edited parts. To evaluate the consistency of preserved regions, we constructed Edit3D-Bench, a human-annotated dataset comprising hundreds of samples, each with carefully labeled 3D editing regions. Experiments demonstrate that VoxHammer significantly outperforms existing methods in terms of both 3D consistency of preserved regions and overall quality. Our method holds promise for synthesizing high-quality edited paired data, thereby laying the data foundation for in-context 3D generation. See our project page at https://huanngzh.github.io/VoxHammer-Page/.

VoxHammer: Edición 3D precisa y coherente sin entrenamiento en espacio 3D nativo

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Resumen

Support