SIMART : Décomposition de maillages monolithiques en ressources articulées prêtes pour la simulation via MLLM

Résumé

Les ressources 3D articulées de haute qualité sont indispensables à l'IA incarnée et à la simulation physique, pourtant la génération 3D se concentre encore sur des maillages statiques, laissant un vide concernant les objets interactifs "prêts pour la simulation". La plupart des méthodes récentes de création d'objets articulés reposent sur des pipelines multi-étapes qui accumulent des erreurs entre des modules découplés. Alternativement, les MLLM unifiés offrent une approche mono-étape pour une compréhension conjointe des assets statiques et une génération d'assets prêts pour la simulation. Cependant, la tokenisation 3D basée sur des voxels denses produit de longues séquences de tokens 3D et une surcharge mémoire élevée, limitant l'évolutivité vers des objets articulés complexes. Pour résoudre ce problème, nous proposons SIMART, un framework MLLM unifié qui réalise conjointement une décomposition au niveau des pièces et une prédiction cinématique. En introduisant un VQ-VAE 3D parcimonieux (Sparse 3D VQ-VAE), SIMART réduit le nombre de tokens de 70 % par rapport aux tokens de voxels denses, permettant des assemblages multi-pièces de haute fidélité. SIMART obtient des performances de pointe sur PartNet-Mobility et sur des ensembles de données AIGC en conditions réelles, et permet une simulation robotique basée sur la physique.

English

High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.

SIMART : Décomposition de maillages monolithiques en ressources articulées prêtes pour la simulation via MLLM

SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Résumé

Support