SHAP-EDITOR: Anweisungsgesteuerte latente 3D-Bearbeitung in Sekunden

papers.abstract

Wir schlagen ein neuartiges Feedforward-3D-Bearbeitungsframework namens Shap-Editor vor. Bisherige Forschungen zur Bearbeitung von 3D-Objekten konzentrierten sich hauptsächlich auf die Bearbeitung einzelner Objekte durch die Nutzung von Standard-2D-Bildbearbeitungsnetzwerken. Dies wird durch einen Prozess namens Distillation erreicht, bei dem Wissen vom 2D-Netzwerk auf 3D-Assets übertragen wird. Die Distillation erfordert mindestens mehrere Minuten pro Asset, um zufriedenstellende Bearbeitungsergebnisse zu erzielen, und ist daher nicht sehr praktikabel. Im Gegensatz dazu stellen wir die Frage, ob 3D-Bearbeitung direkt durch ein Feedforward-Netzwerk durchgeführt werden kann, ohne eine Optimierung zur Laufzeit. Insbesondere nehmen wir an, dass die Bearbeitung stark vereinfacht werden kann, indem 3D-Objekte zunächst in einem geeigneten latenten Raum kodiert werden. Wir validieren diese Hypothese, indem wir auf dem latenten Raum von Shap-E aufbauen. Wir zeigen, dass eine direkte 3D-Bearbeitung in diesem Raum möglich und effizient ist, indem wir ein Feedforward-Editor-Netzwerk entwickeln, das nur etwa eine Sekunde pro Bearbeitung benötigt. Unsere Experimente zeigen, dass Shap-Editor sowohl für In-Distribution- als auch für Out-of-Distribution-3D-Assets mit verschiedenen Prompts gut generalisiert und eine vergleichbare Leistung mit Methoden erzielt, die für jede bearbeitete Instanz eine Optimierung zur Laufzeit durchführen.

English

We propose a novel feed-forward 3D editing framework called Shap-Editor. Prior research on editing 3D objects primarily concentrated on editing individual objects by leveraging off-the-shelf 2D image editing networks. This is achieved via a process called distillation, which transfers knowledge from the 2D network to 3D assets. Distillation necessitates at least tens of minutes per asset to attain satisfactory editing results, and is thus not very practical. In contrast, we ask whether 3D editing can be carried out directly by a feed-forward network, eschewing test-time optimisation. In particular, we hypothesise that editing can be greatly simplified by first encoding 3D objects in a suitable latent space. We validate this hypothesis by building upon the latent space of Shap-E. We demonstrate that direct 3D editing in this space is possible and efficient by building a feed-forward editor network that only requires approximately one second per edit. Our experiments show that Shap-Editor generalises well to both in-distribution and out-of-distribution 3D assets with different prompts, exhibiting comparable performance with methods that carry out test-time optimisation for each edited instance.

SHAP-EDITOR: Anweisungsgesteuerte latente 3D-Bearbeitung in Sekunden

SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

papers.abstract

Support