ChatPaper.aiChatPaper

Cozinhar e Limpar Juntos: Ensinando Agentes Corporificados para Execução Paralela de Tarefas

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

November 24, 2025
Autores: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI

Resumo

O agendamento de tarefas é crucial para a IA incorporada, permitindo que agentes sigam instruções em linguagem natural e executem ações eficientemente em mundos físicos 3D. Entretanto, conjuntos de dados existentes frequentemente simplificam o planejamento de tarefas ignorando conhecimentos de pesquisa operacional (PO) e a ancoragem espacial 3D. Neste trabalho, propomos o Agendamento de Tarefas com Base em Conhecimento de Pesquisa Operacional e Ancoragem 3D (ORS3D), uma nova tarefa que exige a sinergia entre compreensão linguística, ancoragem 3D e otimização de eficiência. Diferente de configurações anteriores, o ORS3D exige que os agentes minimizem o tempo total de conclusão aproveitando subtarefas paralelizáveis, por exemplo, limpando a pia enquanto o micro-ondas funciona. Para facilitar a pesquisa sobre ORS3D, construímos o ORS3D-60K, um conjunto de dados em larga escala com 60 mil tarefas compostas em 4 mil cenas do mundo real. Adicionalmente, propomos o GRANT, um modelo de linguagem grande multimodal incorporado equipado com um mecanismo de token de agendamento simples porém eficaz para gerar cronogramas eficientes de tarefas e ações ancoradas. Experimentos extensivos no ORS3D-60K validam a eficácia do GRANT em compreensão linguística, ancoragem 3D e eficiência de agendamento. O código está disponível em https://github.com/H-EmbodVis/GRANT.
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT
PDF72March 24, 2026