ChatPaper.aiChatPaper

AffordBot: マルチモーダル大規模言語モデルによる3Dきめ細かい身体化推論

AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

November 13, 2025
著者: Xinyi Wang, Xun Yang, Yanlong Xu, Yuchen Wu, Zhen Li, Na Zhao
cs.AI

要旨

物理環境における効果的な人間-エージェント協調には、何に対して行動すべきかだけでなく、操作可能な要素がどこに存在し、どのように相互作用すべきかを理解することが求められる。既存のアプローチは多くの場合、オブジェクトレベルで動作するか、細粒度のアフォーダンス推論を断片的に扱っており、一貫性のある指示駆動型の接地と推論が欠如している。本研究では、新しいタスクである「細粒度3D具象化推論」を提案する。このタスクでは、エージェントが課題指示に基づき、3Dシーン内で参照される各アフォーダンス要素に対して、その空間的位置、動作タイプ、動作軸から構成される構造化された三つ組を予測する必要がある。この課題を解決するため、マルチモーダル大規模言語モデル(MLLM)と独自設計の連鎖思考推論パラダイムを統合した新しいフレームワーク「AffordBot」を提案する。3D入力と2D互換MLLMの間の隔たりを埋めるため、シーンの全方位画像をレンダリングし、3D要素候補をこれらのビューに投影することで、シーン幾何学に沿った豊富な視覚的表現を形成する。提案する連鎖思考パイプラインは、能動的知覚段階から始まり、MLLMに指示に基づいて最も情報量の多い視点を選択させた後、段階的な推論を進めてアフォーダンス要素の位置特定と妥当な相互作用動作の推定を行う。SceneFun3Dデータセットによる評価では、AffordBotは3D点群入力とMLLMのみを用いて、物理的に接地された強力な一般化と推論能力を示し、最先端の性能を達成した。
English
Effective human-agent collaboration in physical environments requires understanding not only what to act upon, but also where the actionable elements are and how to interact with them. Existing approaches often operate at the object level or disjointedly handle fine-grained affordance reasoning, lacking coherent, instruction-driven grounding and reasoning. In this work, we introduce a new task: Fine-grained 3D Embodied Reasoning, which requires an agent to predict, for each referenced affordance element in a 3D scene, a structured triplet comprising its spatial location, motion type, and motion axis, based on a task instruction. To solve this task, we propose AffordBot, a novel framework that integrates Multimodal Large Language Models (MLLMs) with a tailored chain-of-thought (CoT) reasoning paradigm. To bridge the gap between 3D input and 2D-compatible MLLMs, we render surround-view images of the scene and project 3D element candidates into these views, forming a rich visual representation aligned with the scene geometry. Our CoT pipeline begins with an active perception stage, prompting the MLLM to select the most informative viewpoint based on the instruction, before proceeding with step-by-step reasoning to localize affordance elements and infer plausible interaction motions. Evaluated on the SceneFun3D dataset, AffordBot achieves state-of-the-art performance, demonstrating strong generalization and physically grounded reasoning with only 3D point cloud input and MLLMs.
PDF62December 1, 2025