VoxHammer: Trainingsfreie präzise und kohärente 3D-Bearbeitung im nativen 3D-Raum

papers.abstract

Die lokale 3D-Bearbeitung spezifizierter Regionen ist entscheidend für die Spieleindustrie und die Roboterinteraktion. Aktuelle Methoden bearbeiten typischerweise gerenderte Multi-View-Bilder und rekonstruieren anschließend 3D-Modelle, stoßen jedoch auf Herausforderungen bei der präzisen Bewahrung unveränderter Regionen und der Gesamtkohärenz. Inspiriert von strukturierten 3D-Generativmodellen schlagen wir VoxHammer vor, einen neuartigen trainingsfreien Ansatz, der präzise und kohärente Bearbeitungen im 3D-Latentraum durchführt. Gegeben ein 3D-Modell, prognostiziert VoxHammer zunächst dessen Inversionspfad und erhält dessen invertierte Latents und Key-Value-Tokens zu jedem Zeitpunkt. Anschließend, in der Denoising- und Bearbeitungsphase, ersetzen wir die Denoising-Features der bewahrten Regionen mit den entsprechenden invertierten Latents und zwischengespeicherten Key-Value-Tokens. Durch die Beibehaltung dieser kontextuellen Features gewährleistet dieser Ansatz eine konsistente Rekonstruktion der bewahrten Bereiche und eine kohärente Integration der bearbeiteten Teile. Um die Konsistenz der bewahrten Regionen zu bewerten, haben wir Edit3D-Bench konstruiert, einen menschlich annotierten Datensatz, der Hunderte von Proben umfasst, jede mit sorgfältig beschrifteten 3D-Bearbeitungsregionen. Experimente zeigen, dass VoxHammer bestehende Methoden sowohl in Bezug auf die 3D-Konsistenz der bewahrten Regionen als auch auf die Gesamtqualität deutlich übertrifft. Unsere Methode verspricht die Synthese hochwertiger bearbeiteter gepaarter Daten und legt damit die Datenbasis für die In-Context-3D-Generierung. Siehe unsere Projektseite unter https://huanngzh.github.io/VoxHammer-Page/.

English

3D local editing of specified regions is crucial for game industry and robot interaction. Recent methods typically edit rendered multi-view images and then reconstruct 3D models, but they face challenges in precisely preserving unedited regions and overall coherence. Inspired by structured 3D generative models, we propose VoxHammer, a novel training-free approach that performs precise and coherent editing in 3D latent space. Given a 3D model, VoxHammer first predicts its inversion trajectory and obtains its inverted latents and key-value tokens at each timestep. Subsequently, in the denoising and editing phase, we replace the denoising features of preserved regions with the corresponding inverted latents and cached key-value tokens. By retaining these contextual features, this approach ensures consistent reconstruction of preserved areas and coherent integration of edited parts. To evaluate the consistency of preserved regions, we constructed Edit3D-Bench, a human-annotated dataset comprising hundreds of samples, each with carefully labeled 3D editing regions. Experiments demonstrate that VoxHammer significantly outperforms existing methods in terms of both 3D consistency of preserved regions and overall quality. Our method holds promise for synthesizing high-quality edited paired data, thereby laying the data foundation for in-context 3D generation. See our project page at https://huanngzh.github.io/VoxHammer-Page/.

VoxHammer: Trainingsfreie präzise und kohärente 3D-Bearbeitung im nativen 3D-Raum

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

papers.abstract

Support