ChatPaper.aiChatPaper

Part-X-MLLM: Modello Linguistico Multimodale di Grande Dimensioni con Consapevolezza delle Parti in 3D

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

November 17, 2025
Autori: Chunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo
cs.AI

Abstract

Introduciamo Part-X-MLLM, un modello linguistico multimodale 3D nativo che unifica compiti 3D diversificati formulandoli come programmi in una grammatica strutturata ed eseguibile. Dati una nuvola di punti RGB e un prompt in linguaggio naturale, il nostro modello genera in modo autoregressivo una singola sequenza di token coerente che codifica bounding box a livello di parte, descrizioni semantiche e comandi di modifica. Questo output strutturato funge da interfaccia versatile per pilotare moduli downstream consapevoli della geometria per la generazione e modifica basate su parti. Disaccoppiando la pianificazione simbolica dalla sintesi geometrica, il nostro approccio consente a qualsiasi motore geometrico compatibile di essere controllato tramite un unico frontend nativo linguistico. Pre-addestriamo un'architettura a doppio encoder per separare la struttura dalla semantica e ottimizziamo il modello tramite instruction-tuning su un dataset di larga scala incentrato sulle parti. Gli esperimenti dimostrano che il nostro modello eccelle nella produzione di piani strutturati di alta qualità, consentendo prestazioni allo stato dell'arte in Q&A contestuale, generazione compositiva e modifica localizzata attraverso un'unica interfaccia unificata. Pagina del progetto: https://chunshi.wang/Part-X-MLLM/
English
We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/
PDF692December 1, 2025