ChatPaper.aiChatPaper

Samen Koken en Schoonmaken: Het Leren van Belichaamde Agenten voor Parallelle Taakuitvoering

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

November 24, 2025
Auteurs: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI

Samenvatting

Taakplanning is cruciaal voor belichaamde AI, omdat het agents in staat stelt om instructies in natuurlijke taal op te volgen en acties efficiënt uit te voeren in 3D-fysieke werelden. Bestaande datasets vereenvoudigen taakplanning echter vaak door operationele research (OR)-kennis en 3D-ruimtelijke verankering te negeren. In dit werk introduceren wij Operations Research kennis-gebaseerde 3D Gegronde Taakplanning (ORS3D), een nieuwe taak die de synergie vereist van taalbegrip, 3D-verankering en efficiëntie-optimalisatie. In tegenstelling tot eerdere settings vereist ORS3D dat agents de totale voltooiingstijd minimaliseren door gebruik te maken van paralleliseerbare deeltaken, zoals het schoonmaken van de gootsteen terwijl de magnetron werkt. Om onderzoek naar ORS3D te faciliteren, construeren wij ORS3D-60K, een grootschalige dataset bestaande uit 60K samengestelde taken verspreid over 4K real-world scènes. Verder stellen wij GRANT voor, een belichaamd multi-modale groot taalmodel uitgerust met een eenvoudig maar effectief plannings-tokenmechanisme om efficiënte taakschema's en gegronde acties te genereren. Uitgebreide experimenten op ORS3D-60K valideren de effectiviteit van GRANT op het gebied van taalbegrip, 3D-verankering en plannings-efficiëntie. De code is beschikbaar op https://github.com/H-EmbodVis/GRANT.
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT
PDF72December 1, 2025