Part-X-MLLM : Modèle de Langage Multimodal 3D avec Conscience des Parties
Part-X-MLLM: Part-aware 3D Multimodal Large Language Model
November 17, 2025
papers.authors: Chunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo
cs.AI
papers.abstract
Nous présentons Part-X-MLLM, un modèle multimodal de langage de grande taille natif en 3D qui unifie des tâches 3D variées en les formulant comme des programmes dans une grammaire exécutable structurée. Étant donné un nuage de points RGB et une instruction en langage naturel, notre modèle génère de manière autorégressive une séquence cohérente de tokens encodant des boîtes englobantes au niveau des pièces, des descriptions sémantiques et des commandes d'édition. Cette sortie structurée sert d'interface polyvalente pour piloter des modules aval conscients de la géométrie, permettant la génération et l'édition basées sur les pièces. En dissociant la planification symbolique de la synthèse géométrique, notre approche permet à tout moteur géométrique compatible d'être contrôlé via une interface unique native en langage naturel. Nous pré-entraînons une architecture à double encodeur pour dissocier la structure de la sémantique et affinons le modèle par instruction sur un jeu de données massif centré sur les pièces. Les expériences démontrent que notre modèle excelle à produire des plans structurés de haute qualité, permettant des performances de pointe en Q\&R ancrée, en génération compositionnelle et en édition localisée via une interface unifiée. Page du projet : https://chunshi.wang/Part-X-MLLM/
English
We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/