SIMART: Decompondo Malhas Monolíticas em Ativos Articulados Prontos para Simulação via MLLM

Resumo

Ativos 3D articulados de alta qualidade são indispensáveis para a IA incorporada e simulação física, mas a geração 3D ainda se concentra em malhas estáticas, deixando uma lacuna em objetos interativos "prontos para simulação". A maioria dos métodos recentes de criação de objetos articulados depende de pipelines de múltiplos estágios que acumulam erros em módulos desacoplados. Alternativamente, os MLLMs unificados oferecem um caminho de estágio único para o entendimento conjunto de ativos estáticos e a geração de ativos prontos para simulação. No entanto, a tokenização 3D densa baseada em voxels produz longas sequências de tokens 3D e alta sobrecarga de memória, limitando a escalabilidade para objetos articulados complexos. Para resolver isso, propomos o SIMART, uma estrutura MLLM unificada que realiza conjuntamente a decomposição em nível de parte e a previsão cinemática. Ao introduzir um Sparse 3D VQ-VAE, o SIMART reduz a contagem de tokens em 70% em comparação com tokens de voxels densos, permitindo montagens de múltiplas partes de alta fidelidade. O SIMART alcança desempenho de ponta no PartNet-Mobility e em conjuntos de dados AIGC do mundo real, e permite simulação robótica baseada em física.

English

High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.