VoxHammer: Modifica 3D Precisa e Coerente nello Spazio 3D Nativo Senza Addestramento
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space
August 26, 2025
Autori: Lin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
cs.AI
Abstract
La modifica locale 3D di regioni specifiche è cruciale per l'industria dei videogiochi e l'interazione con i robot. I metodi recenti tipicamente modificano immagini multi-vista renderizzate e poi ricostruiscono modelli 3D, ma affrontano sfide nel preservare con precisione le regioni non modificate e la coerenza complessiva. Ispirati dai modelli generativi 3D strutturati, proponiamo VoxHammer, un approccio innovativo senza addestramento che esegue modifiche precise e coerenti nello spazio latente 3D. Dato un modello 3D, VoxHammer predice prima la sua traiettoria di inversione e ottiene i suoi latenti invertiti e i token chiave-valore a ogni passo temporale. Successivamente, nella fase di denoising e modifica, sostituiamo le caratteristiche di denoising delle regioni preservate con i corrispondenti latenti invertiti e i token chiave-valore memorizzati. Mantenendo queste caratteristiche contestuali, questo approccio garantisce una ricostruzione coerente delle aree preservate e un'integrazione armoniosa delle parti modificate. Per valutare la coerenza delle regioni preservate, abbiamo costruito Edit3D-Bench, un dataset annotato manualmente composto da centinaia di campioni, ciascuno con regioni di modifica 3D etichettate con cura. Gli esperimenti dimostrano che VoxHammer supera significativamente i metodi esistenti sia in termini di coerenza 3D delle regioni preservate che di qualità complessiva. Il nostro metodo promette di sintetizzare dati modificati di alta qualità, ponendo così le basi per la generazione 3D in contesto. Visita la nostra pagina del progetto all'indirizzo https://huanngzh.github.io/VoxHammer-Page/.
English
3D local editing of specified regions is crucial for game industry and robot
interaction. Recent methods typically edit rendered multi-view images and then
reconstruct 3D models, but they face challenges in precisely preserving
unedited regions and overall coherence. Inspired by structured 3D generative
models, we propose VoxHammer, a novel training-free approach that performs
precise and coherent editing in 3D latent space. Given a 3D model, VoxHammer
first predicts its inversion trajectory and obtains its inverted latents and
key-value tokens at each timestep. Subsequently, in the denoising and editing
phase, we replace the denoising features of preserved regions with the
corresponding inverted latents and cached key-value tokens. By retaining these
contextual features, this approach ensures consistent reconstruction of
preserved areas and coherent integration of edited parts. To evaluate the
consistency of preserved regions, we constructed Edit3D-Bench, a
human-annotated dataset comprising hundreds of samples, each with carefully
labeled 3D editing regions. Experiments demonstrate that VoxHammer
significantly outperforms existing methods in terms of both 3D consistency of
preserved regions and overall quality. Our method holds promise for
synthesizing high-quality edited paired data, thereby laying the data
foundation for in-context 3D generation. See our project page at
https://huanngzh.github.io/VoxHammer-Page/.