ChatPaper.aiChatPaper

Cucinare e Pulire Insieme: Insegnare ad Agenti Embodied l'Esecuzione Parallela di Compiti

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

November 24, 2025
Autori: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI

Abstract

La pianificazione dei compiti è fondamentale per l'IA incarnata, poiché consente agli agenti di seguire istruzioni in linguaggio naturale ed eseguire azioni in modo efficiente in mondi fisici 3D. Tuttavia, i dataset esistenti spesso semplificano la pianificazione dei compiti ignorando le conoscenze di ricerca operativa (OR) e il grounding spaziale 3D. In questo lavoro, proponiamo ORS3D (Task Scheduling con Grounding 3D basato sulla Ricerca Operativa), un nuovo compito che richiede la sinergia di comprensione linguistica, grounding 3D e ottimizzazione dell'efficienza. A differenza delle impostazioni precedenti, ORS3D richiede che gli agenti minimizzino il tempo totale di completamento sfruttando sottocompiti parallelizzabili, come pulire il lavello mentre il microonde è in funzione. Per facilitare la ricerca su ORS3D, abbiamo costruito ORS3D-60K, un dataset su larga scala comprendente 60.000 compiti compositi in 4.000 scene del mondo reale. Inoltre, proponiamo GRANT, un modello linguistico multimodale incarnato dotato di un meccanismo di token di scheduling semplice ma efficace per generare pianificazioni efficienti dei compiti e azioni radicate. Esperimenti estensivi su ORS3D-60K convalidano l'efficacia di GRANT nella comprensione linguistica, nel grounding 3D e nell'efficienza della pianificazione. Il codice è disponibile all'indirizzo https://github.com/H-EmbodVis/GRANT.
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT
PDF72December 1, 2025