함께 요리하고 청소하기: 병렬 작업 수행을 위한 구체화된 에이전트 교육
Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
November 24, 2025
저자: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai
cs.AI
초록
작업 스케줄링은 구현형 AI에서 핵심적인 요소로, 에이전트가 자연어 지시를 따라 3D 물리 세계에서 효율적으로 행동을 실행할 수 있게 합니다. 그러나 기존 데이터셋은 운영연구(OR) 지식과 3D 공간 기반을 무시함으로써 작업 계획을 지나치게 단순화하는 경향이 있습니다. 본 연구에서는 언어 이해, 3D 기반, 효율성 최적화의 협응이 필요한 새로운 과제인 ORS3D(운영연구 지식 기반 3D 작업 스케줄링)를 제안합니다. 기존 설정과 달리, ORS3D는 에이전트가 전자레인지 가동 중에 싱크대 청소하기와 같은 병렬 실행 가능한 하위 작업을 활용하여 총 완료 시간을 최소화할 것을 요구합니다. ORS3D 연구를 촉진하기 위해 4,000개의 실제 환경 장면에서 60,000개의 복합 작업으로 구성된 대규모 데이터셋 ORS3D-60K를 구축했습니다. 더 나아가 효율적인 작업 스케줄과 기반 행동을 생성하기 위해 간단하면서 효과적인 스케줄링 토큰 메커니즘을 갖춘 구현형 다중 모달 대형 언어 모델 GRANT를 제안합니다. ORS3D-60K에 대한 폭넓은 실험을 통해 GRANT의 언어 이해, 3D 기반, 스케줄링 효율성 측면에서의 효과성을 입증했습니다. 코드는 https://github.com/H-EmbodVis/GRANT에서 확인할 수 있습니다.
English
Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT