다중 목적 비관련 병렬 머신 스케줄링을 위한 그래프 향상 심층 강화 학습
Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling
February 8, 2026
저자: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI
초록
릴리즈 타임, 설정 시간, 자격 제약을 포함하는 비관련 병렬 머신 스케줄링 문제(UPMSP)는 중요한 다목적 최적화 과제를 제시한다. 기존 방법들은 총 가중 지연 시간(TWT)과 총 설정 시간(TST) 최소화 사이의 균형을 찾는 데 어려움을 겪는다. 본 논문은 Proximal Policy Optimization(PPO)과 그래프 신경망(GNN)을 활용한 심층 강화 학습 프레임워크를 제안한다. GNN은 작업, 머신, 설정의 복잡한 상태를 효과적으로 표현하여 PPO 에이전트가 직접적인 스케줄링 정책을 학습할 수 있도록 한다. 다목적 보상 함수의 지도 하에 에이전트는 TWT와 TST를 동시에 최소화한다. 벤치마크 인스턴스에 대한 실험 결과는 본 연구의 PPO-GNN 에이전트가 표준 디스패칭 규칙 및 메타휴리스틱을 크게 능가하며 두 목표 사이에서 우수한 균형을 달성함을 보여준다. 이는 복잡한 제조 스케줄링을 위한 강력하고 확장 가능한 솔루션을 제공한다.
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.