SHAP-EDITOR: Anweisungsgesteuerte latente 3D-Bearbeitung in Sekunden
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds
December 14, 2023
Autoren: Minghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi
cs.AI
Zusammenfassung
Wir schlagen ein neuartiges Feedforward-3D-Bearbeitungsframework namens Shap-Editor vor. Bisherige Forschungen zur Bearbeitung von 3D-Objekten konzentrierten sich hauptsächlich auf die Bearbeitung einzelner Objekte durch die Nutzung von Standard-2D-Bildbearbeitungsnetzwerken. Dies wird durch einen Prozess namens Distillation erreicht, bei dem Wissen vom 2D-Netzwerk auf 3D-Assets übertragen wird. Die Distillation erfordert mindestens mehrere Minuten pro Asset, um zufriedenstellende Bearbeitungsergebnisse zu erzielen, und ist daher nicht sehr praktikabel. Im Gegensatz dazu stellen wir die Frage, ob 3D-Bearbeitung direkt durch ein Feedforward-Netzwerk durchgeführt werden kann, ohne eine Optimierung zur Laufzeit. Insbesondere nehmen wir an, dass die Bearbeitung stark vereinfacht werden kann, indem 3D-Objekte zunächst in einem geeigneten latenten Raum kodiert werden. Wir validieren diese Hypothese, indem wir auf dem latenten Raum von Shap-E aufbauen. Wir zeigen, dass eine direkte 3D-Bearbeitung in diesem Raum möglich und effizient ist, indem wir ein Feedforward-Editor-Netzwerk entwickeln, das nur etwa eine Sekunde pro Bearbeitung benötigt. Unsere Experimente zeigen, dass Shap-Editor sowohl für In-Distribution- als auch für Out-of-Distribution-3D-Assets mit verschiedenen Prompts gut generalisiert und eine vergleichbare Leistung mit Methoden erzielt, die für jede bearbeitete Instanz eine Optimierung zur Laufzeit durchführen.
English
We propose a novel feed-forward 3D editing framework called Shap-Editor.
Prior research on editing 3D objects primarily concentrated on editing
individual objects by leveraging off-the-shelf 2D image editing networks. This
is achieved via a process called distillation, which transfers knowledge from
the 2D network to 3D assets. Distillation necessitates at least tens of minutes
per asset to attain satisfactory editing results, and is thus not very
practical. In contrast, we ask whether 3D editing can be carried out directly
by a feed-forward network, eschewing test-time optimisation. In particular, we
hypothesise that editing can be greatly simplified by first encoding 3D objects
in a suitable latent space. We validate this hypothesis by building upon the
latent space of Shap-E. We demonstrate that direct 3D editing in this space is
possible and efficient by building a feed-forward editor network that only
requires approximately one second per edit. Our experiments show that
Shap-Editor generalises well to both in-distribution and out-of-distribution 3D
assets with different prompts, exhibiting comparable performance with methods
that carry out test-time optimisation for each edited instance.