Структурированные 3D латенты для масштабируемого и универсального создания 3D моделей.
Structured 3D Latents for Scalable and Versatile 3D Generation
December 2, 2024
Авторы: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI
Аннотация
Мы представляем новый метод генерации 3D-изображений для создания универсальных и высококачественных 3D-ресурсов. Основой является объединенное структурированное латентное (SLAT) представление, которое позволяет декодировать в различные выходные форматы, такие как радиационные поля, 3D-гауссианы и сетки. Это достигается путем интеграции разреженной 3D-сетки с плотными многовидовыми визуальными признаками, извлеченными из мощной модели базового зрения, всесторонне захватывающей как структурную (геометрическую), так и текстурную (внешнюю) информацию, сохраняя гибкость во время декодирования. Мы используем преобразователи прямого потока, настроенные для SLAT, в качестве наших моделей генерации 3D и обучаем модели с до 2 миллиардами параметров на большом наборе данных 3D-ресурсов из 500 тыс. разнообразных объектов. Наша модель генерирует высококачественные результаты с условиями текста или изображения, значительно превосходящие существующие методы, включая недавние на сходных масштабах. Мы демонстрируем гибкий выбор формата вывода и возможности локального редактирования 3D, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.
English
We introduce a novel 3D generation method for versatile and high-quality 3D
asset creation. The cornerstone is a unified Structured LATent (SLAT)
representation which allows decoding to different output formats, such as
Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a
sparsely-populated 3D grid with dense multiview visual features extracted from
a powerful vision foundation model, comprehensively capturing both structural
(geometry) and textural (appearance) information while maintaining flexibility
during decoding. We employ rectified flow transformers tailored for SLAT as our
3D generation models and train models with up to 2 billion parameters on a
large 3D asset dataset of 500K diverse objects. Our model generates
high-quality results with text or image conditions, significantly surpassing
existing methods, including recent ones at similar scales. We showcase flexible
output format selection and local 3D editing capabilities which were not
offered by previous models. Code, model, and data will be released.Summary
AI-Generated Summary