ChatPaper.aiChatPaper

Strukturierte 3D-Latenzen für skalierbare und vielseitige 3D-Generierung.

Structured 3D Latents for Scalable and Versatile 3D Generation

December 2, 2024
Autoren: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI

Zusammenfassung

Wir stellen eine innovative 3D-Generierungsmethode für vielseitige und hochwertige 3D-Asset-Erstellung vor. Der Eckpfeiler ist eine vereinheitlichte Strukturierte LATente (SLAT)-Darstellung, die eine Dekodierung in verschiedene Ausgabeformate wie Strahlungsfelder, 3D-Gaußsche Verteilungen und Meshes ermöglicht. Dies wird durch die Integration eines spärlich bevölkerten 3D-Rasters mit dichten multiview visuellen Merkmalen erreicht, die aus einem leistungsstarken Vision-Grundlagenmodell extrahiert werden und sowohl strukturelle (Geometrie) als auch texturale (Erscheinung) Informationen umfassend erfassen, während die Flexibilität während der Dekodierung erhalten bleibt. Wir verwenden für SLAT maßgeschneiderte rektifizierte Fluss-Transformer als unsere 3D-Generierungsmodelle und trainieren Modelle mit bis zu 2 Milliarden Parametern auf einem großen 3D-Asset-Datensatz von 500.000 verschiedenen Objekten. Unser Modell erzeugt hochwertige Ergebnisse mit Text- oder Bildbedingungen und übertrifft signifikant bestehende Methoden, einschließlich jüngster Ansätze in ähnlichem Maßstab. Wir präsentieren flexible Auswahlmöglichkeiten für das Ausgabeformat und lokale 3D-Bearbeitungsfunktionen, die von früheren Modellen nicht angeboten wurden. Code, Modell und Daten werden veröffentlicht.
English
We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a sparsely-populated 3D grid with dense multiview visual features extracted from a powerful vision foundation model, comprehensively capturing both structural (geometry) and textural (appearance) information while maintaining flexibility during decoding. We employ rectified flow transformers tailored for SLAT as our 3D generation models and train models with up to 2 billion parameters on a large 3D asset dataset of 500K diverse objects. Our model generates high-quality results with text or image conditions, significantly surpassing existing methods, including recent ones at similar scales. We showcase flexible output format selection and local 3D editing capabilities which were not offered by previous models. Code, model, and data will be released.

Summary

AI-Generated Summary

PDF769December 6, 2024