SIMART: Scomposizione di Mesh Monolitiche in Risorse Articolate Pronte per la Simulazione tramite MLLM

Abstract

Gli asset 3D articolati di alta qualità sono indispensabili per l'IA incarnata e la simulazione fisica, ma la generazione 3D si concentra ancora su mesh statiche, lasciando un vuoto per oggetti interattivi "pronti per la simulazione". La maggior parte dei metodi recenti per la creazione di oggetti articolati si basa su pipeline multi-stage che accumulano errori attraverso moduli disaccoppiati. In alternativa, i modelli linguistici multimodali (MLLM) unificati offrono un percorso single-stage per la comprensione congiunta degli asset statici e la generazione di asset pronti per la simulazione. Tuttavia, la tokenizzazione 3D basata su voxel densi produce lunghe sequenze di token 3D e un elevato sovraccarico di memoria, limitando la scalabilità a oggetti articolati complessi. Per affrontare questo problema, proponiamo SIMART, un framework MLLM unificato che esegue congiuntamente la scomposizione a livello di parte e la previsione cinematica. Introducendo un VQ-VAE 3D sparso, SIMART riduce il numero di token del 70% rispetto ai token di voxel densi, consentendo assemblaggi multi-parte ad alta fedeltà. SIMART raggiunge prestazioni all'avanguardia su PartNet-Mobility e su dataset AIGC in contesti reali, e abilita la simulazione robotica basata sulla fisica.

English

High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.

SIMART: Scomposizione di Mesh Monolitiche in Risorse Articolate Pronte per la Simulazione tramite MLLM

SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Abstract

Support