MeshCraft: Het verkennen van efficiënte en controleerbare mesh-generatie met flow-based DiTs

Samenvatting

Op het gebied van 3D-contentcreatie is het bereiken van optimale mesh-topologie via AI-modellen al lang een streven voor 3D-artiesten. Eerdere methoden, zoals MeshGPT, hebben de generatie van direct bruikbare 3D-objecten via mesh-auto-regressieve technieken onderzocht. Hoewel deze methoden visueel indrukwekkende resultaten opleveren, leidt hun afhankelijkheid van token-voor-token voorspellingen in het auto-regressieve proces tot enkele significante beperkingen. Deze omvatten extreem trage generatiesnelheden en een onbeheersbaar aantal mesh-vlakken. In dit artikel introduceren we MeshCraft, een nieuw framework voor efficiënte en controleerbare mesh-generatie, dat gebruikmaakt van continue ruimtelijke diffusie om discrete driehoeksvlakken te genereren. Specifiek bestaat MeshCraft uit twee kerncomponenten: 1) een transformer-gebaseerde VAE die ruwe meshes codeert in continue vlakniveau-tokens en deze decodeert naar de originele meshes, en 2) een flow-gebaseerde diffusie-transformer die is geconditioneerd op het aantal vlakken, waardoor het mogelijk wordt om hoogwaardige 3D-meshes te genereren met een vooraf bepaald aantal vlakken. Door het diffusiemodel te gebruiken voor de gelijktijdige generatie van de volledige mesh-topologie, bereikt MeshCraft hoogwaardige mesh-generatie met aanzienlijk hogere snelheden vergeleken met auto-regressieve methoden. Specifiek kan MeshCraft een mesh met 800 vlakken genereren in slechts 3,2 seconden (35 keer sneller dan bestaande baselines). Uitgebreide experimenten tonen aan dat MeshCraft state-of-the-art technieken overtreft in zowel kwalitatieve als kwantitatieve evaluaties op de ShapeNet-dataset en superieure prestaties laat zien op de Objaverse-dataset. Bovendien integreert het naadloos met bestaande conditionele begeleidingsstrategieën, wat het potentieel aantoont om artiesten te ontlasten van het tijdrovende handmatige werk dat betrokken is bij mesh-creatie.

English

In the domain of 3D content creation, achieving optimal mesh topology through AI models has long been a pursuit for 3D artists. Previous methods, such as MeshGPT, have explored the generation of ready-to-use 3D objects via mesh auto-regressive techniques. While these methods produce visually impressive results, their reliance on token-by-token predictions in the auto-regressive process leads to several significant limitations. These include extremely slow generation speeds and an uncontrollable number of mesh faces. In this paper, we introduce MeshCraft, a novel framework for efficient and controllable mesh generation, which leverages continuous spatial diffusion to generate discrete triangle faces. Specifically, MeshCraft consists of two core components: 1) a transformer-based VAE that encodes raw meshes into continuous face-level tokens and decodes them back to the original meshes, and 2) a flow-based diffusion transformer conditioned on the number of faces, enabling the generation of high-quality 3D meshes with a predefined number of faces. By utilizing the diffusion model for the simultaneous generation of the entire mesh topology, MeshCraft achieves high-fidelity mesh generation at significantly faster speeds compared to auto-regressive methods. Specifically, MeshCraft can generate an 800-face mesh in just 3.2 seconds (35times faster than existing baselines). Extensive experiments demonstrate that MeshCraft outperforms state-of-the-art techniques in both qualitative and quantitative evaluations on ShapeNet dataset and demonstrates superior performance on Objaverse dataset. Moreover, it integrates seamlessly with existing conditional guidance strategies, showcasing its potential to relieve artists from the time-consuming manual work involved in mesh creation.

MeshCraft: Het verkennen van efficiënte en controleerbare mesh-generatie met flow-based DiTs

MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs

Samenvatting

Support