HexaGen3D: StableDiffusion — всего один шаг до быстрого и разнообразного преобразования текста в 3D
HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation
January 15, 2024
Авторы: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI
Аннотация
Несмотря на последние значительные достижения в области генеративного моделирования, эффективное создание высококачественных 3D-ассетов по текстовым запросам остается сложной задачей. Основная проблема заключается в недостатке данных: самые крупные наборы 3D-данных содержат лишь миллионы ассетов, в то время как их 2D-аналоги включают миллиарды пар текст-изображение. Чтобы решить эту проблему, мы предлагаем новый подход, который использует возможности крупных предобученных 2D-диффузионных моделей. Более конкретно, наш метод, HexaGen3D, дообучает предобученную модель для генерации изображений по тексту, чтобы одновременно предсказывать 6 ортогональных проекций и соответствующую латентную триплоскость. Затем мы декодируем эти латентные представления для создания текстурированного меша. HexaGen3D не требует оптимизации для каждого отдельного образца и может генерировать высококачественные и разнообразные объекты по текстовым запросам за 7 секунд, предлагая значительно лучшее соотношение качества и задержки по сравнению с существующими подходами. Кроме того, HexaGen3D демонстрирует сильную способность к обобщению на новые объекты или композиции.
English
Despite the latest remarkable advances in generative modeling, efficient
generation of high-quality 3D assets from textual prompts remains a difficult
task. A key challenge lies in data scarcity: the most extensive 3D datasets
encompass merely millions of assets, while their 2D counterparts contain
billions of text-image pairs. To address this, we propose a novel approach
which harnesses the power of large, pretrained 2D diffusion models. More
specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image
model to jointly predict 6 orthographic projections and the corresponding
latent triplane. We then decode these latents to generate a textured mesh.
HexaGen3D does not require per-sample optimization, and can infer high-quality
and diverse objects from textual prompts in 7 seconds, offering significantly
better quality-to-latency trade-offs when comparing to existing approaches.
Furthermore, HexaGen3D demonstrates strong generalization to new objects or
compositions.