ChatPaper.aiChatPaper

SHAP-EDITOR: Edición Latente 3D Guiada por Instrucciones en Segundos

SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

December 14, 2023
Autores: Minghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi
cs.AI

Resumen

Proponemos un novedoso marco de edición 3D de propagación directa llamado Shap-Editor. Investigaciones previas sobre la edición de objetos 3D se centraron principalmente en la edición de objetos individuales mediante el aprovechamiento de redes de edición de imágenes 2D preexistentes. Esto se logra a través de un proceso llamado destilación, que transfiere conocimiento desde la red 2D a los activos 3D. La destilación requiere al menos decenas de minutos por activo para obtener resultados de edición satisfactorios, lo que la hace poco práctica. En contraste, nos preguntamos si la edición 3D puede realizarse directamente mediante una red de propagación directa, evitando la optimización en tiempo de prueba. En particular, planteamos la hipótesis de que la edición puede simplificarse significativamente codificando primero los objetos 3D en un espacio latente adecuado. Validamos esta hipótesis basándonos en el espacio latente de Shap-E. Demostramos que la edición 3D directa en este espacio es posible y eficiente mediante la construcción de una red editora de propagación directa que solo requiere aproximadamente un segundo por edición. Nuestros experimentos muestran que Shap-Editor generaliza bien tanto a activos 3D dentro de la distribución como fuera de ella con diferentes indicaciones, exhibiendo un rendimiento comparable con métodos que realizan optimización en tiempo de prueba para cada instancia editada.
English
We propose a novel feed-forward 3D editing framework called Shap-Editor. Prior research on editing 3D objects primarily concentrated on editing individual objects by leveraging off-the-shelf 2D image editing networks. This is achieved via a process called distillation, which transfers knowledge from the 2D network to 3D assets. Distillation necessitates at least tens of minutes per asset to attain satisfactory editing results, and is thus not very practical. In contrast, we ask whether 3D editing can be carried out directly by a feed-forward network, eschewing test-time optimisation. In particular, we hypothesise that editing can be greatly simplified by first encoding 3D objects in a suitable latent space. We validate this hypothesis by building upon the latent space of Shap-E. We demonstrate that direct 3D editing in this space is possible and efficient by building a feed-forward editor network that only requires approximately one second per edit. Our experiments show that Shap-Editor generalises well to both in-distribution and out-of-distribution 3D assets with different prompts, exhibiting comparable performance with methods that carry out test-time optimisation for each edited instance.
PDF91December 15, 2024