SIMART: Descomposición de Mallas Monolíticas en Activos Articulados Listos para Simulación mediante MLLM
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM
March 24, 2026
Autores: Chuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang
cs.AI
Resumen
Los activos 3D articulados de alta calidad son indispensables para la IA corporeizada y la simulación física, sin embargo, la generación 3D aún se centra en mallas estáticas, dejando un vacío en objetos interactivos "listos para simulación". La mayoría de los métodos recientes de creación de objetos articulados se basan en canalizaciones multi-etapa que acumulan errores a través de módulos desacoplados. Alternativamente, los MLLM unificados ofrecen una ruta de una sola etapa para la comprensión conjunta de activos estáticos y la generación de activos listos para simulación. Sin embargo, la tokenización 3D densa basada en vóxeles genera secuencias largas de tokens 3D y una alta sobrecarga de memoria, limitando la escalabilidad a objetos articulados complejos. Para abordar esto, proponemos SIMART, un marco MLLM unificado que realiza conjuntamente descomposición a nivel de partes y predicción cinemática. Al introducir un Sparse 3D VQ-VAE, SIMART reduce el recuento de tokens en un 70% frente a los tokens de vóxeles densos, permitiendo ensamblajes multi-parte de alta fidelidad. SIMART logra un rendimiento state-of-the-art en PartNet-Mobility y en conjuntos de datos AIGC del mundo real, y permite simulación robótica basada en la física.
English
High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.