SIMART: Het Opsplitsen van Monolithische MESHES in Simulatieklare Gearticuleerde Middelen via MLLM
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM
March 24, 2026
Auteurs: Chuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang
cs.AI
Samenvatting
Hoogwaardige gearticuleerde 3D-assets zijn onmisbaar voor embodied AI en fysieke simulatie, maar 3D-generatie richt zich nog steeds op statische meshes, wat een kloof laat in 'simulatie-klare' interactieve objecten. De meeste recente methoden voor het creëren van gearticuleerde objecten vertrouwen op meerfasige pijplijnen die fouten accumuleren over ontkoppelde modules. Alternatief bieden unified MLLM's een enkelfasig pad naar gezamenlijk begrip van statische assets en generatie van simulatie-klare assets. Dichte op voxels gebaseerde 3D-tokenisatie resulteert echter in lange 3D-tokenreeksen en een hoge geheugenoverhead, wat de schaalbaarheid voor complexe gearticuleerde objecten beperkt. Om dit aan te pakken, stellen we SIMART voor, een unified MLLM-framework dat gezamenlijk decompositie op onderdeelniveau en kinematische voorspelling uitvoert. Door de introductie van een Sparse 3D VQ-VAE reduceert SIMART het aantal tokens met 70% ten opzichte van dichte voxel-tokens, wat hoogwaardige multi-part assemblages mogelijk maakt. SIMART behaalt state-of-the-art prestaties op PartNet-Mobility en in-the-wild AIGC-datasets, en maakt op fysica gebaseerde robotica-simulatie mogelijk.
English
High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.