ChatPaper.aiChatPaper

LGM: Модель больших многовидовых гауссовских распределений для создания высококачественного 3D-контента

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

February 7, 2024
Авторы: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu
cs.AI

Аннотация

Создание 3D-контента достигло значительного прогресса как в плане качества, так и скорости. Хотя современные модели с прямой передачей данных могут генерировать 3D-объекты за считанные секунды, их разрешение ограничено интенсивными вычислениями, необходимыми в процессе обучения. В данной статье мы представляем Large Multi-View Gaussian Model (LGM) — новый фреймворк, предназначенный для генерации высококачественных 3D-моделей на основе текстовых запросов или однокадровых изображений. Наши ключевые идеи заключаются в следующем: 1) 3D-представление: мы предлагаем использовать многокадровые гауссовы признаки как эффективное и мощное представление, которое затем может быть объединено для дифференцируемого рендеринга. 2) 3D-архитектура: мы представляем асимметричную U-Net в качестве высокопроизводительной основы, работающей с многокадровыми изображениями, которые могут быть получены из текстового или однокадрового изображения с использованием многокадровых диффузионных моделей. Многочисленные эксперименты демонстрируют высокую точность и эффективность нашего подхода. Важно отметить, что мы сохраняем высокую скорость генерации 3D-объектов в пределах 5 секунд, одновременно повышая разрешение обучения до 512, что позволяет достичь генерации высококачественного 3D-контента.
English
3D content creation has achieved significant progress in terms of both quality and speed. Although current feed-forward models can produce 3D objects in seconds, their resolution is constrained by the intensive computation required during training. In this paper, we introduce Large Multi-View Gaussian Model (LGM), a novel framework designed to generate high-resolution 3D models from text prompts or single-view images. Our key insights are two-fold: 1) 3D Representation: We propose multi-view Gaussian features as an efficient yet powerful representation, which can then be fused together for differentiable rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput backbone operating on multi-view images, which can be produced from text or single-view image input by leveraging multi-view diffusion models. Extensive experiments demonstrate the high fidelity and efficiency of our approach. Notably, we maintain the fast speed to generate 3D objects within 5 seconds while boosting the training resolution to 512, thereby achieving high-resolution 3D content generation.
PDF293December 15, 2024