ChatPaper.aiChatPaper

Part-X-MLLM: 부품 인식 3D 멀티모달 대규모 언어 모델

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

November 17, 2025
저자: Chunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo
cs.AI

초록

우리는 다양한 3D 작업을 구조화된 실행 가능한 문법 내 프로그램으로 공식화하여 통합하는 네이티브 3D 멀티모달 대규모 언어 모델인 Part-X-MLLM을 소개합니다. RGB 포인트 클라우드와 자연어 프롬프트가 주어지면, 우리 모델은 파트 수준 바운딩 박스, 의미론적 설명, 편집 명령을 인코딩하는 단일且 일관된 토큰 시퀀스를 자동회귀적으로 생성합니다. 이 구조화된 출력은 파트 기반 생성 및 편집을 위한 지오메트리 인식 다운스트림 모듈을 구동하는 다목적 인터페이스 역할을 합니다. 기호적 계획과 기하학적 합성을 분리함으로써, 우리의 접근 방식은 단일한 언어 네이티브 프론트엔드를 통해 호환 가능한 모든 지오메트리 엔진을 제어할 수 있게 합니다. 우리는 구조와 의미론을 분리하기 위해 듀얼 인코더 아키텍처를 사전 학습하고 대규모 파트 중심 데이터셋으로 모델을 지시 튜닝합니다. 실험 결과, 우리 모델이 고품질의 구조화된 계획 생산에 탁월하여 통합된 단일 인터페이스를 통해 근거 기반 질의응답, 구성적 생성, 지역화된 편집 분야에서 최첨단 성능을 가능하게 함을 입증합니다. 프로젝트 페이지: https://chunshi.wang/Part-X-MLLM/
English
We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/
PDF692December 1, 2025