Cuisiner et Nettoyer Ensemble : Enseigner aux Agents Incarnés l'Exécution Parallèle de Tâches
Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
November 24, 2025
papers.authors: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI
papers.abstract
La planification de tâches est cruciale pour l'IA incarnée, permettant aux agents de suivre des instructions en langage naturel et d'exécuter des actions efficacement dans des mondes physiques 3D. Cependant, les ensembles de données existants simplifient souvent la planification en ignorant les connaissances en recherche opérationnelle (RO) et l'ancrage spatial 3D. Dans ce travail, nous proposons ORS3D, une nouvelle tâche qui nécessite la synergie entre la compréhension du langage, l'ancrage 3D et l'optimisation de l'efficacité. Contrairement aux cadres précédents, ORS3D exige que les agents minimisent le temps d'exécution total en exploitant des sous-tâches parallélisables, par exemple nettoyer l'évier pendant que le micro-ondes fonctionne. Pour faciliter la recherche sur ORS3D, nous construisons ORS3D-60K, un ensemble de données à grande échelle comprenant 60 000 tâches composites réparties sur 4 000 scènes du monde réel. De plus, nous proposons GRANT, un modèle de langage multimodal incarné équipé d'un mécanisme de jeton de planification simple mais efficace pour générer des ordonnancements de tâches optimisés et des actions ancrées. Des expériences approfondies sur ORS3D-60K valident l'efficacité de GRANT en compréhension du langage, ancrage 3D et optimisation temporelle. Le code est disponible à l'adresse https://github.com/H-EmbodVis/GRANT.
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT