MeshCraft: Het verkennen van efficiënte en controleerbare mesh-generatie met flow-based DiTs
MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs
March 29, 2025
Auteurs: Xianglong He, Junyi Chen, Di Huang, Zexiang Liu, Xiaoshui Huang, Wanli Ouyang, Chun Yuan, Yangguang Li
cs.AI
Samenvatting
Op het gebied van 3D-contentcreatie is het bereiken van optimale mesh-topologie via AI-modellen al lang een streven voor 3D-artiesten. Eerdere methoden, zoals MeshGPT, hebben de generatie van direct bruikbare 3D-objecten via mesh-auto-regressieve technieken onderzocht. Hoewel deze methoden visueel indrukwekkende resultaten opleveren, leidt hun afhankelijkheid van token-voor-token voorspellingen in het auto-regressieve proces tot enkele significante beperkingen. Deze omvatten extreem trage generatiesnelheden en een onbeheersbaar aantal mesh-vlakken. In dit artikel introduceren we MeshCraft, een nieuw framework voor efficiënte en controleerbare mesh-generatie, dat gebruikmaakt van continue ruimtelijke diffusie om discrete driehoeksvlakken te genereren. Specifiek bestaat MeshCraft uit twee kerncomponenten: 1) een transformer-gebaseerde VAE die ruwe meshes codeert in continue vlakniveau-tokens en deze decodeert naar de originele meshes, en 2) een flow-gebaseerde diffusie-transformer die is geconditioneerd op het aantal vlakken, waardoor het mogelijk wordt om hoogwaardige 3D-meshes te genereren met een vooraf bepaald aantal vlakken. Door het diffusiemodel te gebruiken voor de gelijktijdige generatie van de volledige mesh-topologie, bereikt MeshCraft hoogwaardige mesh-generatie met aanzienlijk hogere snelheden vergeleken met auto-regressieve methoden. Specifiek kan MeshCraft een mesh met 800 vlakken genereren in slechts 3,2 seconden (35 keer sneller dan bestaande baselines). Uitgebreide experimenten tonen aan dat MeshCraft state-of-the-art technieken overtreft in zowel kwalitatieve als kwantitatieve evaluaties op de ShapeNet-dataset en superieure prestaties laat zien op de Objaverse-dataset. Bovendien integreert het naadloos met bestaande conditionele begeleidingsstrategieën, wat het potentieel aantoont om artiesten te ontlasten van het tijdrovende handmatige werk dat betrokken is bij mesh-creatie.
English
In the domain of 3D content creation, achieving optimal mesh topology through
AI models has long been a pursuit for 3D artists. Previous methods, such as
MeshGPT, have explored the generation of ready-to-use 3D objects via mesh
auto-regressive techniques. While these methods produce visually impressive
results, their reliance on token-by-token predictions in the auto-regressive
process leads to several significant limitations. These include extremely slow
generation speeds and an uncontrollable number of mesh faces. In this paper, we
introduce MeshCraft, a novel framework for efficient and controllable mesh
generation, which leverages continuous spatial diffusion to generate discrete
triangle faces. Specifically, MeshCraft consists of two core components: 1) a
transformer-based VAE that encodes raw meshes into continuous face-level tokens
and decodes them back to the original meshes, and 2) a flow-based diffusion
transformer conditioned on the number of faces, enabling the generation of
high-quality 3D meshes with a predefined number of faces. By utilizing the
diffusion model for the simultaneous generation of the entire mesh topology,
MeshCraft achieves high-fidelity mesh generation at significantly faster speeds
compared to auto-regressive methods. Specifically, MeshCraft can generate an
800-face mesh in just 3.2 seconds (35times faster than existing baselines).
Extensive experiments demonstrate that MeshCraft outperforms state-of-the-art
techniques in both qualitative and quantitative evaluations on ShapeNet dataset
and demonstrates superior performance on Objaverse dataset. Moreover, it
integrates seamlessly with existing conditional guidance strategies, showcasing
its potential to relieve artists from the time-consuming manual work involved
in mesh creation.Summary
AI-Generated Summary