MeshAnything: Meshgeneratie door kunstenaars met autoregressieve transformatoren
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers
June 14, 2024
Auteurs: Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang
cs.AI
Samenvatting
Recentelijk hebben 3D-assets die via reconstructie en generatie zijn gemaakt, de kwaliteit van handmatig vervaardigde assets geëvenaard, wat hun potentieel voor vervanging benadrukt. Dit potentieel blijft echter grotendeels onbenut omdat deze assets altijd moeten worden omgezet naar meshes voor toepassingen in de 3D-industrie, en de meshes die door huidige mesh-extractiemethoden worden geproduceerd, zijn aanzienlijk inferieur aan Artist-Created Meshes (AMs), d.w.z. meshes die door menselijke artiesten zijn gemaakt. Specifiek vertrouwen huidige mesh-extractiemethoden op dichte vlakken en negeren ze geometrische kenmerken, wat leidt tot inefficiënties, gecompliceerde nabewerking en lagere representatiekwaliteit. Om deze problemen aan te pakken, introduceren we MeshAnything, een model dat mesh-extractie behandelt als een generatieprobleem, waarbij het AMs produceert die zijn afgestemd op gespecificeerde vormen. Door 3D-assets in elke 3D-representatie om te zetten in AMs, kan MeshAnything worden geïntegreerd met verschillende 3D-assetproductiemethoden, waardoor hun toepassing in de 3D-industrie wordt verbeterd. De architectuur van MeshAnything bestaat uit een VQ-VAE en een shape-conditioned decoder-only transformer. We leren eerst een mesh-vocabulaire aan met behulp van de VQ-VAE, en trainen vervolgens de shape-conditioned decoder-only transformer op dit vocabulaire voor shape-conditioned autoregressieve mesh-generatie. Onze uitgebreide experimenten tonen aan dat onze methode AMs genereert met honderden keren minder vlakken, wat de opslag-, rendering- en simulatie-efficiëntie aanzienlijk verbetert, terwijl een precisie wordt bereikt die vergelijkbaar is met eerdere methoden.
English
Recently, 3D assets created via reconstruction and generation have matched
the quality of manually crafted assets, highlighting their potential for
replacement. However, this potential is largely unrealized because these assets
always need to be converted to meshes for 3D industry applications, and the
meshes produced by current mesh extraction methods are significantly inferior
to Artist-Created Meshes (AMs), i.e., meshes created by human artists.
Specifically, current mesh extraction methods rely on dense faces and ignore
geometric features, leading to inefficiencies, complicated post-processing, and
lower representation quality. To address these issues, we introduce
MeshAnything, a model that treats mesh extraction as a generation problem,
producing AMs aligned with specified shapes. By converting 3D assets in any 3D
representation into AMs, MeshAnything can be integrated with various 3D asset
production methods, thereby enhancing their application across the 3D industry.
The architecture of MeshAnything comprises a VQ-VAE and a shape-conditioned
decoder-only transformer. We first learn a mesh vocabulary using the VQ-VAE,
then train the shape-conditioned decoder-only transformer on this vocabulary
for shape-conditioned autoregressive mesh generation. Our extensive experiments
show that our method generates AMs with hundreds of times fewer faces,
significantly improving storage, rendering, and simulation efficiencies, while
achieving precision comparable to previous methods.