ChatPaper.aiChatPaper

AffordBot: Ragionamento incarnato granulare 3D tramite modelli linguistici multimodali di grandi dimensioni

AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

November 13, 2025
Autori: Xinyi Wang, Xun Yang, Yanlong Xu, Yuchen Wu, Zhen Li, Na Zhao
cs.AI

Abstract

Una collaborazione efficace tra umani e agenti in ambienti fisici richiede la comprensione non solo di quali elementi agire, ma anche della loro posizione e delle modalità di interazione. Gli approcci esistenti operano spesso a livello di oggetto o gestiscono in modo disgiunto il ragionamento sulle affordance a grana fine, mancando di un grounding e un ragionamento coerenti e guidati dalle istruzioni. In questo lavoro, introduciamo un nuovo compito: il Ragionamento Embodied a Grana Fine in 3D, che richiede a un agente di prevedere, per ogni elemento di affordance referenziato in una scena 3D, una tripletta strutturata comprendente la sua posizione spaziale, il tipo di movimento e l'asse del movimento, sulla base di un'istruzione di compito. Per risolvere questo compito, proponiamo AffordBot, un framework innovativo che integra Modelli Linguistici Multimodali di Grande Dimensione (MLLM) con un paradigma di ragionamento a catena del pensiero (CoT) appositamente studiato. Per colmare il divario tra l'input 3D e gli MLLM compatibili con il 2D, renderizziamo immagini a vista panoramica della scena e proiettiamo i candidati elementi 3D in queste viste, formando una ricca rappresentazione visiva allineata con la geometria della scena. La nostra pipeline CoT inizia con una fase di percezione attiva, sollecitando l'MLLM a selezionare il punto di vista più informativo in base all'istruzione, per poi procedere con un ragionamento passo-passo per localizzare gli elementi di affordance e inferire movimenti di interazione plausibili. Valutato sul dataset SceneFun3D, AffordBot raggiunge prestazioni allo stato dell'arte, dimostrando una forte generalizzazione e un ragionamento fisicamente fondato utilizzando solo nuvole di punti 3D in input e MLLM.
English
Effective human-agent collaboration in physical environments requires understanding not only what to act upon, but also where the actionable elements are and how to interact with them. Existing approaches often operate at the object level or disjointedly handle fine-grained affordance reasoning, lacking coherent, instruction-driven grounding and reasoning. In this work, we introduce a new task: Fine-grained 3D Embodied Reasoning, which requires an agent to predict, for each referenced affordance element in a 3D scene, a structured triplet comprising its spatial location, motion type, and motion axis, based on a task instruction. To solve this task, we propose AffordBot, a novel framework that integrates Multimodal Large Language Models (MLLMs) with a tailored chain-of-thought (CoT) reasoning paradigm. To bridge the gap between 3D input and 2D-compatible MLLMs, we render surround-view images of the scene and project 3D element candidates into these views, forming a rich visual representation aligned with the scene geometry. Our CoT pipeline begins with an active perception stage, prompting the MLLM to select the most informative viewpoint based on the instruction, before proceeding with step-by-step reasoning to localize affordance elements and infer plausible interaction motions. Evaluated on the SceneFun3D dataset, AffordBot achieves state-of-the-art performance, demonstrating strong generalization and physically grounded reasoning with only 3D point cloud input and MLLMs.
PDF62December 1, 2025