ChatPaper.aiChatPaper

Part-X-MLLM: 部分認識型3Dマルチモーダル大規模言語モデル

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

November 17, 2025
著者: Chunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo
cs.AI

要旨

RGB点群と自然言語プロンプトを入力として、我々のモデルはパートレベルのバウンディングボックス、意味記述、編集コマンドを符号化した単一の首尾一貫したトークン列を自己回帰的に生成します。この構造化出力は、パートベースの生成と編集のための下流の形状認識モジュールを駆動する汎用インターフェースとして機能します。記号的計画と幾何学的合成を分離することで、任意の互換性のある形状エンジンを単一の言語ネイティブなフロントエンドで制御可能にします。構造と意味論を分離するデュアルエンコーダーアーキテクチャを事前学習し、大規模なパート中心データセットで命令チューニングを実施しました。実験により、本モデルが高品質な構造化計画の生成に優れ、接地されたQ&A、合成的生成、局所的な編集において最先端の性能を実現することが示されました。プロジェクトページ: https://chunshi.wang/Part-X-MLLM/
English
We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/
PDF692December 1, 2025