ChatPaper.aiChatPaper

LN3Diff: 빠른 3D 생성을 위한 확장 가능한 잠재 신경 필드 확산

LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

March 18, 2024
저자: Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI

초록

신경 렌더링(neural rendering) 분야는 생성 모델(generative models)과 미분 가능 렌더링(differentiable rendering) 기술의 발전으로 상당한 진전을 이루었습니다. 2D 디퓨전(diffusion)은 성공을 거두었지만, 통합된 3D 디퓨전 파이프라인은 아직 확립되지 않았습니다. 본 논문은 이러한 격차를 해소하고 빠르고 고품질이며 일반적인 조건부 3D 생성을 가능하게 하는 LN3Diff라는 새로운 프레임워크를 소개합니다. 우리의 접근 방식은 3D 인식 아키텍처와 변분 오토인코더(VAE)를 활용하여 입력 이미지를 구조화되고 압축된 3D 잠재 공간으로 인코딩합니다. 이 잠재 공간은 트랜스포머 기반 디코더에 의해 고용량 3D 신경 필드로 디코딩됩니다. 이 3D 인식 잠재 공간에서 디퓨전 모델을 학습함으로써, 우리의 방법은 ShapeNet에서 3D 생성에 대해 최첨단 성능을 달성하고 다양한 데이터셋에서 단안 3D 재구성 및 조건부 3D 생성에서 우수한 성능을 보여줍니다. 또한, 인스턴스별 최적화가 필요 없어 기존 3D 디퓨전 방법보다 추론 속도에서 우수합니다. 우리가 제안한 LN3Diff는 3D 생성 모델링에서 중요한 진전을 이루었으며, 3D 비전 및 그래픽 작업에서 다양한 응용 가능성을 가지고 있습니다.
English
The field of neural rendering has witnessed significant progress with advancements in generative models and differentiable rendering techniques. Though 2D diffusion has achieved success, a unified 3D diffusion pipeline remains unsettled. This paper introduces a novel framework called LN3Diff to address this gap and enable fast, high-quality, and generic conditional 3D generation. Our approach harnesses a 3D-aware architecture and variational autoencoder (VAE) to encode the input image into a structured, compact, and 3D latent space. The latent is decoded by a transformer-based decoder into a high-capacity 3D neural field. Through training a diffusion model on this 3D-aware latent space, our method achieves state-of-the-art performance on ShapeNet for 3D generation and demonstrates superior performance in monocular 3D reconstruction and conditional 3D generation across various datasets. Moreover, it surpasses existing 3D diffusion methods in terms of inference speed, requiring no per-instance optimization. Our proposed LN3Diff presents a significant advancement in 3D generative modeling and holds promise for various applications in 3D vision and graphics tasks.

Summary

AI-Generated Summary

PDF102December 15, 2024