ChatPaper.aiChatPaper

Part-X-MLLM: Modelo de Lenguaje Grande Multimodal 3D con Conciencia de Partes

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

November 17, 2025
Autores: Chunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo
cs.AI

Resumen

Presentamos Part-X-MLLM, un modelo nativo de lenguaje grande multimodal en 3D que unifica diversas tareas tridimensionales formulándolas como programas en una gramática estructurada y ejecutable. Dada una nube de puntos RGB y un prompt en lenguaje natural, nuestro modelo genera de forma autoregresiva una única secuencia coherente de tokens que codifica bounding boxes a nivel de partes, descripciones semánticas y comandos de edición. Esta salida estructurada sirve como una interfaz versátil para impulsar módulos subsiguientes con conciencia geométrica, destinados a la generación y edición basada en partes. Al desacoplar la planificación simbólica de la síntesis geométrica, nuestro enfoque permite que cualquier motor geométrico compatible sea controlado mediante un único frontend nativo del lenguaje. Pre-entrenamos una arquitectura de codificador dual para separar la estructura de la semántica y ajustamos el modelo mediante instrucciones sobre un conjunto de datos extenso y centrado en partes. Los experimentos demuestran que nuestro modelo sobresale en la producción de planes estructurados de alta calidad, logrando un rendimiento state-of-the-art en preguntas y respuestas fundamentadas, generación composicional y edición localizada a través de una única interfaz unificada. Página del proyecto: https://chunshi.wang/Part-X-MLLM/
English
We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/
PDF692December 1, 2025