HexaGen3D: StableDiffusion ist nur einen Schritt entfernt von schneller und vielfältiger Text-zu-3D-Generierung
HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation
January 15, 2024
Autoren: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI
Zusammenfassung
Trotz der jüngsten bemerkenswerten Fortschritte im Bereich der generativen Modellierung bleibt die effiziente Erzeugung hochwertiger 3D-Assets aus textuellen Eingaben eine schwierige Aufgabe. Eine zentrale Herausforderung liegt in der Datenknappheit: Die umfangreichsten 3D-Datensätze umfassen lediglich Millionen von Assets, während ihre 2D-Pendants Milliarden von Text-Bild-Paaren enthalten. Um dies zu bewältigen, schlagen wir einen neuartigen Ansatz vor, der die Leistungsfähigkeit großer, vortrainierter 2D-Diffusionsmodelle nutzt. Konkret feintunet unser Ansatz, HexaGen3D, ein vortrainiertes Text-zu-Bild-Modell, um gemeinsam sechs orthografische Projektionen und das entsprechende latente Triplane vorherzusagen. Diese latenten Repräsentationen werden anschließend dekodiert, um ein texturiertes Mesh zu generieren. HexaGen3D erfordert keine pro-Probe-Optimierung und kann in 7 Sekunden hochwertige und vielfältige Objekte aus textuellen Eingaben inferieren, was im Vergleich zu bestehenden Ansätzen deutlich bessere Qualitäts-Latenz-Kompromisse bietet. Darüber hinaus zeigt HexaGen3D eine starke Generalisierungsfähigkeit für neue Objekte oder Kompositionen.
English
Despite the latest remarkable advances in generative modeling, efficient
generation of high-quality 3D assets from textual prompts remains a difficult
task. A key challenge lies in data scarcity: the most extensive 3D datasets
encompass merely millions of assets, while their 2D counterparts contain
billions of text-image pairs. To address this, we propose a novel approach
which harnesses the power of large, pretrained 2D diffusion models. More
specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image
model to jointly predict 6 orthographic projections and the corresponding
latent triplane. We then decode these latents to generate a textured mesh.
HexaGen3D does not require per-sample optimization, and can infer high-quality
and diverse objects from textual prompts in 7 seconds, offering significantly
better quality-to-latency trade-offs when comparing to existing approaches.
Furthermore, HexaGen3D demonstrates strong generalization to new objects or
compositions.