ChatPaper.aiChatPaper

HexaGen3D: StableDiffusion è a un solo passo da una Generazione Testo-3D Veloce e Diversificata

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation

January 15, 2024
Autori: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI

Abstract

Nonostante i recenti e notevoli progressi nella modellazione generativa, la generazione efficiente di asset 3D di alta qualità a partire da prompt testuali rimane un compito complesso. Una delle principali sfide risiede nella scarsità di dati: i dataset 3D più estesi comprendono appena milioni di asset, mentre le loro controparti 2D contengono miliardi di coppie testo-immagine. Per affrontare questo problema, proponiamo un approccio innovativo che sfrutta la potenza di grandi modelli di diffusione 2D preaddestrati. Più nello specifico, il nostro approccio, HexaGen3D, perfeziona un modello preaddestrato di testo-immagine per prevedere congiuntamente 6 proiezioni ortografiche e il corrispondente triplanare latente. Successivamente, decodifichiamo questi latenti per generare una mesh texturizzata. HexaGen3D non richiede ottimizzazione per ogni campione e può inferire oggetti di alta qualità e diversificati da prompt testuali in 7 secondi, offrendo un compromesso qualità-latenza significativamente migliore rispetto agli approcci esistenti. Inoltre, HexaGen3D dimostra una forte generalizzazione a nuovi oggetti o composizioni.
English
Despite the latest remarkable advances in generative modeling, efficient generation of high-quality 3D assets from textual prompts remains a difficult task. A key challenge lies in data scarcity: the most extensive 3D datasets encompass merely millions of assets, while their 2D counterparts contain billions of text-image pairs. To address this, we propose a novel approach which harnesses the power of large, pretrained 2D diffusion models. More specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image model to jointly predict 6 orthographic projections and the corresponding latent triplane. We then decode these latents to generate a textured mesh. HexaGen3D does not require per-sample optimization, and can infer high-quality and diverse objects from textual prompts in 7 seconds, offering significantly better quality-to-latency trade-offs when comparing to existing approaches. Furthermore, HexaGen3D demonstrates strong generalization to new objects or compositions.
PDF111December 15, 2024