MeshAnything: Mesh-Generierung durch Künstler mit autoregressiven Transformern
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers
June 14, 2024
Autoren: Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang
cs.AI
Zusammenfassung
In letzter Zeit haben 3D-Assets, die durch Rekonstruktion und Generierung erstellt wurden, die Qualität von manuell erstellten Assets erreicht, was ihr Potenzial für den Ersatz hervorhebt. Dieses Potenzial bleibt jedoch weitgehend ungenutzt, da diese Assets immer in Meshes für 3D-Industrieanwendungen umgewandelt werden müssen, und die von aktuellen Mesh-Extraktionsmethoden erzeugten Meshes sind deutlich minderwertig im Vergleich zu von Künstlern erstellten Meshes (AMs), d.h. Meshes, die von menschlichen Künstlern erstellt wurden. Aktuelle Mesh-Extraktionsmethoden stützen sich insbesondere auf dichte Flächen und ignorieren geometrische Merkmale, was zu Ineffizienzen, komplizierten Nachbearbeitungen und einer geringeren Repräsentationsqualität führt. Um diese Probleme anzugehen, stellen wir MeshAnything vor, ein Modell, das die Mesh-Extraktion als ein Generierungsproblem behandelt und AMs erzeugt, die mit spezifizierten Formen übereinstimmen. Durch die Umwandlung von 3D-Assets in jeder 3D-Repräsentation in AMs kann MeshAnything mit verschiedenen 3D-Asset-Produktionsmethoden integriert werden und somit ihre Anwendung in der gesamten 3D-Industrie verbessern. Die Architektur von MeshAnything umfasst ein VQ-VAE und einen formkonditionierten Decoder-Only-Transformer. Zunächst erlernen wir mit dem VQ-VAE ein Mesh-Vokabular und trainieren dann den formkonditionierten Decoder-Only-Transformer auf diesem Vokabular für die formkonditionierte autoregressive Mesh-Generierung. Unsere umfangreichen Experimente zeigen, dass unsere Methode AMs mit hundertmal weniger Flächen erzeugt, wodurch die Speicher-, Render- und Simulations-Effizienz erheblich verbessert wird, während eine Präzision erreicht wird, die mit früheren Methoden vergleichbar ist.
English
Recently, 3D assets created via reconstruction and generation have matched
the quality of manually crafted assets, highlighting their potential for
replacement. However, this potential is largely unrealized because these assets
always need to be converted to meshes for 3D industry applications, and the
meshes produced by current mesh extraction methods are significantly inferior
to Artist-Created Meshes (AMs), i.e., meshes created by human artists.
Specifically, current mesh extraction methods rely on dense faces and ignore
geometric features, leading to inefficiencies, complicated post-processing, and
lower representation quality. To address these issues, we introduce
MeshAnything, a model that treats mesh extraction as a generation problem,
producing AMs aligned with specified shapes. By converting 3D assets in any 3D
representation into AMs, MeshAnything can be integrated with various 3D asset
production methods, thereby enhancing their application across the 3D industry.
The architecture of MeshAnything comprises a VQ-VAE and a shape-conditioned
decoder-only transformer. We first learn a mesh vocabulary using the VQ-VAE,
then train the shape-conditioned decoder-only transformer on this vocabulary
for shape-conditioned autoregressive mesh generation. Our extensive experiments
show that our method generates AMs with hundreds of times fewer faces,
significantly improving storage, rendering, and simulation efficiencies, while
achieving precision comparable to previous methods.Summary
AI-Generated Summary