HoloDreamer: Генерация голистического трехмерного панорамного мира из текстовых описаний
HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions
July 21, 2024
Авторы: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI
Аннотация
Генерация трехмерных сцен пользуется большим спросом в различных областях, включая виртуальную реальность, игровую индустрию и кино. Благодаря мощным генеративным возможностям моделей распространения текста в изображение, обеспечивающих надежные априорные данные, создание трехмерных сцен только по текстовым подсказкам стало возможным, тем самым значительно продвигая исследования в области генерации трехмерных сцен на основе текста. Для получения наблюдений с разных ракурсов от двумерных моделей распространения, преобладающие методы обычно используют модель распространения для генерации начального локального изображения, за которым последует итеративное дорисовывание локального изображения с использованием моделей распространения для постепенной генерации сцен. Тем не менее, эти подходы на основе дорисовывания склонны к созданию глобально несогласованных результатов генерации сцен без высокой степени завершенности, что ограничивает их более широкое применение. Для решения этих проблем мы представляем HoloDreamer, фреймворк, который сначала генерирует панораму высокой четкости в качестве голистической инициализации полной трехмерной сцены, а затем использует трехмерное гауссово сглаживание (3D-GS) для быстрой реконструкции трехмерной сцены, тем самым облегчая создание согласованных по виду и полностью закрытых трехмерных сцен. В частности, мы предлагаем Генерацию Стилизованной Эквиректангулярной Панорамы, конвейер, который объединяет несколько моделей распространения для обеспечения стилизованной и детализированной генерации эквиректангулярной панорамы из сложных текстовых подсказок. Затем представлено Улучшенное Двухэтапное Восстановление Панорамы, проводящее двухэтапную оптимизацию 3D-GS для заполнения отсутствующей области и улучшения целостности сцены. Обширные эксперименты показали, что наш метод превосходит предыдущие работы по общей визуальной согласованности и гармонии, а также по качеству реконструкции и устойчивости рендеринга при создании полностью закрытых сцен.
English
3D scene generation is in high demand across various domains, including
virtual reality, gaming, and the film industry. Owing to the powerful
generative capabilities of text-to-image diffusion models that provide reliable
priors, the creation of 3D scenes using only text prompts has become viable,
thereby significantly advancing researches in text-driven 3D scene generation.
In order to obtain multiple-view supervision from 2D diffusion models,
prevailing methods typically employ the diffusion model to generate an initial
local image, followed by iteratively outpainting the local image using
diffusion models to gradually generate scenes. Nevertheless, these
outpainting-based approaches prone to produce global inconsistent scene
generation results without high degree of completeness, restricting their
broader applications. To tackle these problems, we introduce HoloDreamer, a
framework that first generates high-definition panorama as a holistic
initialization of the full 3D scene, then leverage 3D Gaussian Splatting
(3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation
of view-consistent and fully enclosed 3D scenes. Specifically, we propose
Stylized Equirectangular Panorama Generation, a pipeline that combines multiple
diffusion models to enable stylized and detailed equirectangular panorama
generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama
Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to
inpaint the missing region and enhance the integrity of the scene.
Comprehensive experiments demonstrated that our method outperforms prior works
in terms of overall visual consistency and harmony as well as reconstruction
quality and rendering robustness when generating fully enclosed scenes.Summary
AI-Generated Summary