一緒に料理と掃除:具身化エージェントによる並列タスク実行の指導
Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
November 24, 2025
著者: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI
要旨
タスクスケジューリングは、エージェントが自然言語の指示に従い3D物理世界で効率的に動作を実行することを可能にする、具身AI(Embodied AI)において極めて重要である。しかし、既存のデータセットでは、オペレーションズ・リサーチ(OR)の知見や3D空間への接地を無視することで、タスク計画を単純化している場合が多い。本研究では、言語理解、3D接地、効率最適化の協調を必要とする新たなタスクとして、オペレーションズ・リサーチ知見に基づく3D接地タスクスケジューリング(ORS3D)を提案する。従来の設定とは異なり、ORS3Dでは、例えば電子レンジが作動している間にシンクを掃除するといった並列化可能なサブタスクを活用し、総完了時間を最小化することをエージェントに求める。ORS3Dの研究を促進するため、4Kの実世界シーンにわたる6万件の複合タスクからなる大規模データセットORS3D-60Kを構築した。さらに、効率的なタスクスケジュールと接地された動作を生成するために、シンプルかつ効果的なスケジューリングトークン機構を備えた具身マルチモーダル大規模言語モデルGRANTを提案する。ORS3D-60Kを用いた大規模な実験により、GRANTの言語理解、3D接地、スケジューリング効率における有効性が検証された。コードはhttps://github.com/H-EmbodVis/GRANT で公開されている。
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT