ChatPaper.aiChatPaper

Gemeinsam Kochen und Putzen: Vermittlung verkörperter Agenten für parallele Aufgabenausführung

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

November 24, 2025
papers.authors: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI

papers.abstract

Die Aufgabenplanung ist entscheidend für verkörperte KI, da sie Agenten ermöglicht, natürliche Sprachinstruktionen zu befolgen und Aktionen effizient in 3D-Physischen Welten auszuführen. Bestehende Datensätze vereinfachen die Aufgabenplanung jedoch oft, indem sie Operations-Research(OR)-Wissen und 3D-räumliche Verankerung ignorieren. In dieser Arbeit schlagen wir ORS3D vor, eine neue Aufgabe, die das Zusammenspiel von Sprachverständnis, 3D-Verankerung und Effizienzoptimierung erfordert. Im Gegensatz zu früheren Settings verlangt ORS3D von Agenten, die Gesamtbearbeitungszeit durch Parallelisierung von Teilaufgaben zu minimieren, z.B. das Reinigen des Waschbeckens während der Mikrowellenbetrieb läuft. Um die Forschung zu ORS3D zu fördern, erstellen wir ORS3D-60K, einen umfangreichen Datensatz mit 60.000 zusammengesetzten Aufgaben über 4.000 realen Szenen. Darüber hinaus schlagen wir GRANT vor, ein verkörpertes multimodales Großsprachmodell mit einem einfachen aber effektiven Planungs-Token-Mechanismus zur Generierung effizienter Aufgabenpläne und verankerter Aktionen. Umfangreiche Experimente auf ORS3D-60K validieren die Wirksamkeit von GRANT in den Bereichen Sprachverständnis, 3D-Verankerung und Planungseffizienz. Der Code ist verfügbar unter https://github.com/H-EmbodVis/GRANT.
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT
PDF72December 1, 2025