SIMART: Zerlegung monolithischer Netze in simulationsfähige artikulierte Assets mittels MLLM

Zusammenfassung

Hochwertige artikulierte 3D-Assets sind unverzichtbar für verkörperte KI und physikalische Simulation, doch die 3D-Generierung konzentriert sich nach wie vor auf statische Netze, was eine Lücke bei "simulationsfertigen" interaktiven Objekten hinterlässt. Die meisten aktuellen Methoden zur Erstellung artikulierter Objekte basieren auf mehrstufigen Pipelines, die Fehler über entkoppelte Module hinweg akkumulieren. Alternativ dazu bieten vereinheitlichte MLLMs einen einstufigen Weg zum gemeinsamen Verständnis statischer Assets und zur Generierung simulationsfähiger Assets. Allerdings führt eine dichte voxelbasierte 3D-Tokenisierung zu langen 3D-Token-Sequenzen und hohem Speicherverbrauch, was die Skalierbarkeit auf komplexe artikulierte Objekte einschränkt. Um dies zu lösen, schlagen wir SIMART vor, einen vereinheitlichten MLLM-Rahmen, der gemeinsam partielle Zerlegung und kinematische Vorhersage durchführt. Durch die Einführung eines Sparse 3D VQ-VAE reduziert SIMART die Token-Anzahl um 70 % im Vergleich zu dichten Voxel-Tokens und ermöglicht so hochpräzise Mehrteil-Montagen. SIMART erzielt state-of-the-art Leistung auf PartNet-Mobility und In-the-Wild AIGC-Datensätzen und ermöglicht physikbasierte Robotersimulation.

English

High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.

SIMART: Zerlegung monolithischer Netze in simulationsfähige artikulierte Assets mittels MLLM

SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Zusammenfassung

Support