Part-X-MLLM: Частно-ориентированная 3D мультимодальная большая языковая модель
Part-X-MLLM: Part-aware 3D Multimodal Large Language Model
November 17, 2025
Авторы: Chunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo
cs.AI
Аннотация
Мы представляем Part-X-MLLM — нативную 3D мультимодальную большую языковую модель, которая унифицирует разнообразные 3D-задачи, формулируя их в виде программ в структурированной исполняемой грамматике. Получая на вход RGB-облако точек и текстовый запрос на естественном языке, наша модель авторегрессивно генерирует единую связную последовательность токенов, кодирующую партитивные ограничивающие рамки, семантические описания и команды редактирования. Этот структурированный выход служит универсальным интерфейсом для управления последующими геометрически осознанными модулями, ориентированными на партитивную генерацию и редактирование. Разделяя символьное планирование и геометрический синтез, наш подход позволяет управлять любым совместимым геометрическим движком через единый языковой интерфейс. Мы предварительно обучаем архитектуру с двойным кодировщиком для разделения структуры и семантики и проводим инструктивное тонкое обучение модели на крупномасштабном партитивно-ориентированном наборе данных. Эксперименты показывают, что наша модель превосходно создает высококачественные структурированные планы, обеспечивая передовую производительность в задачах обоснованного вопросно-ответного взаимодействия, композиционной генерации и локализованного редактирования через единый интерфейс. Страница проекта: https://chunshi.wang/Part-X-MLLM/
English
We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/