ChatPaper.aiChatPaper

SHAP-EDITOR: 초 단위 지시 기반 잠재 3D 편집

SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

December 14, 2023
저자: Minghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi
cs.AI

초록

우리는 Shap-Editor라는 새로운 피드포워드(feed-forward) 3D 편집 프레임워크를 제안한다. 기존의 3D 객체 편집 연구는 주로 기성 2D 이미지 편집 네트워크를 활용하여 개별 객체를 편집하는 데 집중해왔다. 이는 2D 네트워크의 지식을 3D 자산으로 전달하는 디스틸레이션(distillation) 과정을 통해 이루어진다. 디스틸레이션은 만족스러운 편집 결과를 얻기 위해 자산당 최소 수십 분이 필요하며, 따라서 실용적이지 못하다. 이에 반해, 우리는 테스트 시간 최적화를 배제하고 피드포워드 네트워크를 통해 직접 3D 편집을 수행할 수 있는지 질문한다. 특히, 3D 객체를 적절한 잠재 공간(latent space)에 먼저 인코딩함으로써 편집이 크게 단순화될 수 있다는 가설을 세웠다. 우리는 이 가설을 Shap-E의 잠재 공간을 기반으로 검증한다. 우리는 편집당 약 1초만 필요한 피드포워드 편집 네트워크를 구축함으로써 이 공간에서 직접 3D 편집이 가능하고 효율적임을 입증한다. 우리의 실험은 Shap-Editor가 다양한 프롬프트에 대해 인-분포(in-distribution) 및 아웃-오브-분포(out-of-distribution) 3D 자산에 모두 잘 일반화되며, 각 편집 인스턴스에 대해 테스트 시간 최적화를 수행하는 방법들과 비교 가능한 성능을 보여줌을 확인한다.
English
We propose a novel feed-forward 3D editing framework called Shap-Editor. Prior research on editing 3D objects primarily concentrated on editing individual objects by leveraging off-the-shelf 2D image editing networks. This is achieved via a process called distillation, which transfers knowledge from the 2D network to 3D assets. Distillation necessitates at least tens of minutes per asset to attain satisfactory editing results, and is thus not very practical. In contrast, we ask whether 3D editing can be carried out directly by a feed-forward network, eschewing test-time optimisation. In particular, we hypothesise that editing can be greatly simplified by first encoding 3D objects in a suitable latent space. We validate this hypothesis by building upon the latent space of Shap-E. We demonstrate that direct 3D editing in this space is possible and efficient by building a feed-forward editor network that only requires approximately one second per edit. Our experiments show that Shap-Editor generalises well to both in-distribution and out-of-distribution 3D assets with different prompts, exhibiting comparable performance with methods that carry out test-time optimisation for each edited instance.
PDF91December 15, 2024