ChatPaper.aiChatPaper

HexaGen3D: StableDiffusion ist nur einen Schritt entfernt von schneller und vielfältiger Text-zu-3D-Generierung

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation

January 15, 2024
Autoren: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI

Zusammenfassung

Trotz der jüngsten bemerkenswerten Fortschritte im Bereich der generativen Modellierung bleibt die effiziente Erzeugung hochwertiger 3D-Assets aus textuellen Eingaben eine schwierige Aufgabe. Eine zentrale Herausforderung liegt in der Datenknappheit: Die umfangreichsten 3D-Datensätze umfassen lediglich Millionen von Assets, während ihre 2D-Pendants Milliarden von Text-Bild-Paaren enthalten. Um dies zu bewältigen, schlagen wir einen neuartigen Ansatz vor, der die Leistungsfähigkeit großer, vortrainierter 2D-Diffusionsmodelle nutzt. Konkret feintunet unser Ansatz, HexaGen3D, ein vortrainiertes Text-zu-Bild-Modell, um gemeinsam sechs orthografische Projektionen und das entsprechende latente Triplane vorherzusagen. Diese latenten Repräsentationen werden anschließend dekodiert, um ein texturiertes Mesh zu generieren. HexaGen3D erfordert keine pro-Probe-Optimierung und kann in 7 Sekunden hochwertige und vielfältige Objekte aus textuellen Eingaben inferieren, was im Vergleich zu bestehenden Ansätzen deutlich bessere Qualitäts-Latenz-Kompromisse bietet. Darüber hinaus zeigt HexaGen3D eine starke Generalisierungsfähigkeit für neue Objekte oder Kompositionen.
English
Despite the latest remarkable advances in generative modeling, efficient generation of high-quality 3D assets from textual prompts remains a difficult task. A key challenge lies in data scarcity: the most extensive 3D datasets encompass merely millions of assets, while their 2D counterparts contain billions of text-image pairs. To address this, we propose a novel approach which harnesses the power of large, pretrained 2D diffusion models. More specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image model to jointly predict 6 orthographic projections and the corresponding latent triplane. We then decode these latents to generate a textured mesh. HexaGen3D does not require per-sample optimization, and can infer high-quality and diverse objects from textual prompts in 7 seconds, offering significantly better quality-to-latency trade-offs when comparing to existing approaches. Furthermore, HexaGen3D demonstrates strong generalization to new objects or compositions.
PDF111December 15, 2024