ChatPaper.aiChatPaper

GVGEN: Генерация текста в 3D с объемным представлением

GVGEN: Text-to-3D Generation with Volumetric Representation

March 19, 2024
Авторы: Xianglong He, Junyi Chen, Sida Peng, Di Huang, Yangguang Li, Xiaoshui Huang, Chun Yuan, Wanli Ouyang, Tong He
cs.AI

Аннотация

В последние годы 3D гауссово сглаживание стало мощным методом для восстановления и генерации трехмерных объектов, известным своей быстрой и высококачественной возможностью визуализации. Для решения данных недостатков в данной статье представлен новый диффузионный фреймворк GVGEN, разработанный для эффективной генерации трехмерных гауссовых представлений на основе текстового ввода. Мы предлагаем две инновационные техники: (1) Структурированное объемное представление. Сначала мы упорядочиваем неструктурированные 3D гауссовы точки в виде структурированного объема GaussianVolume. Это преобразование позволяет захватывать сложные текстурные детали в объеме, состоящем из фиксированного числа гауссов. Для лучшей оптимизации представления этих деталей мы предлагаем уникальный метод обрезки и плотности, названный Стратегия кандидатского пула, улучшающий достоверность деталей через селективную оптимизацию. (2) Генерация по принципу "грубо-тонко". Чтобы упростить генерацию GaussianVolume и дать возможность модели генерировать экземпляры с детальной трехмерной геометрией, мы предлагаем конвейер генерации по принципу "грубо-тонко". Сначала он строит базовую геометрическую структуру, за которой следует предсказание полных гауссовских атрибутов. Наш фреймворк GVGEN демонстрирует превосходную производительность в качественной и количественной оценке по сравнению с существующими методами генерации 3D объектов. Одновременно он обеспечивает быструю скорость генерации (примерно 7 секунд), эффективно находя баланс между качеством и эффективностью.
English
In recent years, 3D Gaussian splatting has emerged as a powerful technique for 3D reconstruction and generation, known for its fast and high-quality rendering capabilities. To address these shortcomings, this paper introduces a novel diffusion-based framework, GVGEN, designed to efficiently generate 3D Gaussian representations from text input. We propose two innovative techniques:(1) Structured Volumetric Representation. We first arrange disorganized 3D Gaussian points as a structured form GaussianVolume. This transformation allows the capture of intricate texture details within a volume composed of a fixed number of Gaussians. To better optimize the representation of these details, we propose a unique pruning and densifying method named the Candidate Pool Strategy, enhancing detail fidelity through selective optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the generation of GaussianVolume and empower the model to generate instances with detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially constructs a basic geometric structure, followed by the prediction of complete Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in qualitative and quantitative assessments compared to existing 3D generation methods. Simultaneously, it maintains a fast generation speed (sim7 seconds), effectively striking a balance between quality and efficiency.

Summary

AI-Generated Summary

PDF61December 15, 2024