Part-X-MLLM: Modelo de Linguagem Grande Multimodal 3D com Consciência de Partes

Resumo

Apresentamos o Part-X-MLLM, um modelo de linguagem multimodal 3D nativo que unifica diversas tarefas tridimensionais, formulando-as como programas em uma gramática estruturada e executável. Dada uma nuvem de pontos RGB e um prompt em linguagem natural, nosso modelo gera autoregressivamente uma única sequência de tokens coerente que codifica caixas delimitadoras a nível de partes, descrições semânticas e comandos de edição. Essa saída estruturada serve como uma interface versátil para acionar módulos subsequentes com consciência geométrica, destinados à geração e edição baseadas em partes. Ao desacoplar o planejamento simbólico da síntese geométrica, nossa abordagem permite que qualquer mecanismo de geometria compatível seja controlado por meio de um único frontend nativo em linguagem. Pré-treinamos uma arquitetura de codificador duplo para separar a estrutura da semântica e ajustamos o modelo por instrução em um conjunto de dados em larga escala centrado em partes. Experimentos demonstram que nosso modelo se destaca na produção de planos estruturados de alta qualidade, permitindo um desempenho de ponta em Q&A fundamentado, geração composicional e edição localizada por meio de uma única interface unificada. Página do projeto: https://chunshi.wang/Part-X-MLLM/

English

We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/

Part-X-MLLM: Modelo de Linguagem Grande Multimodal 3D com Consciência de Partes

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Resumo

Support