Готовим и убираем вместе: обучение воплощенных агентов параллельному выполнению задач
Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
November 24, 2025
Авторы: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI
Аннотация
Планирование задач является ключевым аспектом для воплощенного ИИ, позволяя агентам следовать инструкциям на естественном языке и эффективно выполнять действия в трехмерных физических мирах. Однако существующие наборы данных часто упрощают планирование задач, игнорируя знания из исследования операций (ИО) и трехмерную пространственную привязку. В данной работе мы предлагаем новую задачу ORS3D — планирование задач с трехмерной привязкой на основе знаний исследования операций, требующую синергии между пониманием языка, пространственной привязкой и оптимизацией эффективности. В отличие от предыдущих подходов, ORS3D требует от агентов минимизации общего времени выполнения за счет использования параллелизуемых подзадач, например, очистки раковины во время работы микроволновой печи. Для содействия исследованиям в области ORS3D мы создали ORS3D-60K — масштабный набор данных, содержащий 60 тыс. составных задач в 4 тыс. реальных сцен. Кроме того, мы предлагаем GRANT — воплощенную мультимодальную большую языковую модель, оснащенную простым, но эффективным механизмом токенов планирования для генерации оптимизированных расписаний задач и обоснованных действий. Экстенсивные эксперименты на ORS3D-60K подтверждают эффективность GRANT в области понимания языка, пространственной привязки и эффективности планирования. Код доступен по адресу https://github.com/H-EmbodVis/GRANT.
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT