ChatPaper.aiChatPaper

Cocinar y Limpiar Juntos: Enseñando a Agentes Embebidos la Ejecución Paralela de Tareas

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

November 24, 2025
Autores: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI

Resumen

La planificación de tareas es fundamental para la IA encarnada, permitiendo que los agentes sigan instrucciones en lenguaje natural y ejecuten acciones de manera eficiente en mundos físicos 3D. Sin embargo, los conjuntos de datos existentes suelen simplificar la planificación ignorando el conocimiento de investigación operativa (IO) y la fundamentación espacial 3D. En este trabajo, proponemos la Planificación de Tareas con Fundamentación 3D basada en Investigación Operativa (ORS3D), una nueva tarea que requiere la sinergia de comprensión del lenguaje, fundamentación 3D y optimización de la eficiencia. A diferencia de configuraciones anteriores, ORS3D exige que los agentes minimicen el tiempo total de finalización aprovechando las subtareas paralelizables, por ejemplo, limpiar el fregadero mientras funciona el microondas. Para facilitar la investigación sobre ORS3D, construimos ORS3D-60K, un conjunto de datos a gran escala que comprende 60.000 tareas compuestas en 4.000 escenas del mundo real. Además, proponemos GRANT, un modelo de lenguaje grande multimodal encarnado equipado con un mecanismo de tokens de planificación simple pero efectivo para generar planes de tareas eficientes y acciones fundamentadas. Experimentos exhaustivos en ORS3D-60K validan la efectividad de GRANT en comprensión del lenguaje, fundamentación 3D y eficiencia de planificación. El código está disponible en https://github.com/H-EmbodVis/GRANT.
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT
PDF72December 1, 2025