VoxHammer: Trainingsfreie präzise und kohärente 3D-Bearbeitung im nativen 3D-Raum
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space
August 26, 2025
papers.authors: Lin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
cs.AI
papers.abstract
Die lokale 3D-Bearbeitung spezifizierter Regionen ist entscheidend für die Spieleindustrie und die Roboterinteraktion. Aktuelle Methoden bearbeiten typischerweise gerenderte Multi-View-Bilder und rekonstruieren anschließend 3D-Modelle, stoßen jedoch auf Herausforderungen bei der präzisen Bewahrung unveränderter Regionen und der Gesamtkohärenz. Inspiriert von strukturierten 3D-Generativmodellen schlagen wir VoxHammer vor, einen neuartigen trainingsfreien Ansatz, der präzise und kohärente Bearbeitungen im 3D-Latentraum durchführt. Gegeben ein 3D-Modell, prognostiziert VoxHammer zunächst dessen Inversionspfad und erhält dessen invertierte Latents und Key-Value-Tokens zu jedem Zeitpunkt. Anschließend, in der Denoising- und Bearbeitungsphase, ersetzen wir die Denoising-Features der bewahrten Regionen mit den entsprechenden invertierten Latents und zwischengespeicherten Key-Value-Tokens. Durch die Beibehaltung dieser kontextuellen Features gewährleistet dieser Ansatz eine konsistente Rekonstruktion der bewahrten Bereiche und eine kohärente Integration der bearbeiteten Teile. Um die Konsistenz der bewahrten Regionen zu bewerten, haben wir Edit3D-Bench konstruiert, einen menschlich annotierten Datensatz, der Hunderte von Proben umfasst, jede mit sorgfältig beschrifteten 3D-Bearbeitungsregionen. Experimente zeigen, dass VoxHammer bestehende Methoden sowohl in Bezug auf die 3D-Konsistenz der bewahrten Regionen als auch auf die Gesamtqualität deutlich übertrifft. Unsere Methode verspricht die Synthese hochwertiger bearbeiteter gepaarter Daten und legt damit die Datenbasis für die In-Context-3D-Generierung. Siehe unsere Projektseite unter https://huanngzh.github.io/VoxHammer-Page/.
English
3D local editing of specified regions is crucial for game industry and robot
interaction. Recent methods typically edit rendered multi-view images and then
reconstruct 3D models, but they face challenges in precisely preserving
unedited regions and overall coherence. Inspired by structured 3D generative
models, we propose VoxHammer, a novel training-free approach that performs
precise and coherent editing in 3D latent space. Given a 3D model, VoxHammer
first predicts its inversion trajectory and obtains its inverted latents and
key-value tokens at each timestep. Subsequently, in the denoising and editing
phase, we replace the denoising features of preserved regions with the
corresponding inverted latents and cached key-value tokens. By retaining these
contextual features, this approach ensures consistent reconstruction of
preserved areas and coherent integration of edited parts. To evaluate the
consistency of preserved regions, we constructed Edit3D-Bench, a
human-annotated dataset comprising hundreds of samples, each with carefully
labeled 3D editing regions. Experiments demonstrate that VoxHammer
significantly outperforms existing methods in terms of both 3D consistency of
preserved regions and overall quality. Our method holds promise for
synthesizing high-quality edited paired data, thereby laying the data
foundation for in-context 3D generation. See our project page at
https://huanngzh.github.io/VoxHammer-Page/.