AffordBot: Razonamiento Encarnado de Grano Fino en 3D mediante Modelos de Lenguaje Grandes Multimodales

Resumen

La colaboración efectiva entre humanos y agentes en entornos físicos requiere comprender no solo sobre qué actuar, sino también dónde se encuentran los elementos accionables y cómo interactuar con ellos. Los enfoques existentes suelen operar a nivel de objeto o manejan de forma disociada el razonamiento sobre affordances de grano fino, careciendo de una base y un razonamiento coherentes y guiados por instrucciones. En este trabajo, presentamos una nueva tarea: el Razonamiento Corporizado 3D de Grano Fino, que requiere que un agente prediga, para cada elemento de affordance referenciado en una escena 3D, un triplete estructurado que comprende su ubicación espacial, tipo de movimiento y eje de movimiento, basándose en una instrucción de tarea. Para resolver esta tarea, proponemos AffordBot, un marco novedoso que integra Modelos de Lenguaje Grandes Multimodales (MLLMs) con un paradigma de razonamiento de cadena de pensamiento (CoT) adaptado. Para salvar la brecha entre la entrada 3D y los MLLMs compatibles con 2D, renderizamos imágenes de vista envolvente de la escena y proyectamos los candidatos a elementos 3D en estas vistas, formando una representación visual enriquecida alineada con la geometría de la escena. Nuestra canalización CoT comienza con una etapa de percepción activa, que incita al MLLM a seleccionar el punto de vista más informativo basándose en la instrucción, antes de proceder con un razonamiento paso a paso para localizar elementos de affordance e inferir movimientos de interacción plausibles. Evaluado en el conjunto de datos SceneFun3D, AffordBot logra un rendimiento state-of-the-art, demostrando una fuerte generalización y un razonamiento físicamente fundamentado con solo la nube de puntos 3D como entrada y los MLLMs.

English

Effective human-agent collaboration in physical environments requires understanding not only what to act upon, but also where the actionable elements are and how to interact with them. Existing approaches often operate at the object level or disjointedly handle fine-grained affordance reasoning, lacking coherent, instruction-driven grounding and reasoning. In this work, we introduce a new task: Fine-grained 3D Embodied Reasoning, which requires an agent to predict, for each referenced affordance element in a 3D scene, a structured triplet comprising its spatial location, motion type, and motion axis, based on a task instruction. To solve this task, we propose AffordBot, a novel framework that integrates Multimodal Large Language Models (MLLMs) with a tailored chain-of-thought (CoT) reasoning paradigm. To bridge the gap between 3D input and 2D-compatible MLLMs, we render surround-view images of the scene and project 3D element candidates into these views, forming a rich visual representation aligned with the scene geometry. Our CoT pipeline begins with an active perception stage, prompting the MLLM to select the most informative viewpoint based on the instruction, before proceeding with step-by-step reasoning to localize affordance elements and infer plausible interaction motions. Evaluated on the SceneFun3D dataset, AffordBot achieves state-of-the-art performance, demonstrating strong generalization and physically grounded reasoning with only 3D point cloud input and MLLMs.

AffordBot: Razonamiento Encarnado de Grano Fino en 3D mediante Modelos de Lenguaje Grandes Multimodales

AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

Resumen

Support