HexaGen3D: StableDiffusion ist nur einen Schritt entfernt von schneller und vielfältiger Text-zu-3D-Generierung

papers.abstract

Trotz der jüngsten bemerkenswerten Fortschritte im Bereich der generativen Modellierung bleibt die effiziente Erzeugung hochwertiger 3D-Assets aus textuellen Eingaben eine schwierige Aufgabe. Eine zentrale Herausforderung liegt in der Datenknappheit: Die umfangreichsten 3D-Datensätze umfassen lediglich Millionen von Assets, während ihre 2D-Pendants Milliarden von Text-Bild-Paaren enthalten. Um dies zu bewältigen, schlagen wir einen neuartigen Ansatz vor, der die Leistungsfähigkeit großer, vortrainierter 2D-Diffusionsmodelle nutzt. Konkret feintunet unser Ansatz, HexaGen3D, ein vortrainiertes Text-zu-Bild-Modell, um gemeinsam sechs orthografische Projektionen und das entsprechende latente Triplane vorherzusagen. Diese latenten Repräsentationen werden anschließend dekodiert, um ein texturiertes Mesh zu generieren. HexaGen3D erfordert keine pro-Probe-Optimierung und kann in 7 Sekunden hochwertige und vielfältige Objekte aus textuellen Eingaben inferieren, was im Vergleich zu bestehenden Ansätzen deutlich bessere Qualitäts-Latenz-Kompromisse bietet. Darüber hinaus zeigt HexaGen3D eine starke Generalisierungsfähigkeit für neue Objekte oder Kompositionen.

English

Despite the latest remarkable advances in generative modeling, efficient generation of high-quality 3D assets from textual prompts remains a difficult task. A key challenge lies in data scarcity: the most extensive 3D datasets encompass merely millions of assets, while their 2D counterparts contain billions of text-image pairs. To address this, we propose a novel approach which harnesses the power of large, pretrained 2D diffusion models. More specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image model to jointly predict 6 orthographic projections and the corresponding latent triplane. We then decode these latents to generate a textured mesh. HexaGen3D does not require per-sample optimization, and can infer high-quality and diverse objects from textual prompts in 7 seconds, offering significantly better quality-to-latency trade-offs when comparing to existing approaches. Furthermore, HexaGen3D demonstrates strong generalization to new objects or compositions.

HexaGen3D: StableDiffusion ist nur einen Schritt entfernt von schneller und vielfältiger Text-zu-3D-Generierung

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation

papers.abstract

Support