Graph-Enhanced Deep Reinforcement Learning für multikriterielles Scheduling auf nichtverwandten parallelen Maschinen
Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling
February 8, 2026
papers.authors: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI
papers.abstract
Das Unrelated Parallel Machine Scheduling Problem (UPMSP) mit Freigabeterminen, Rüstzeiten und Berechtigungsbeschränkungen stellt eine bedeutende mehrzielige Herausforderung dar. Traditionelle Methoden haben Schwierigkeiten, die Minimierung der gesamten gewichteten Verspätung (Total Weighted Tardiness, TWT) und der gesamten Rüstzeit (Total Setup Time, TST) in Einklang zu bringen. Dieser Beitrag stellt ein Deep Reinforcement Learning Framework vor, das Proximal Policy Optimization (PPO) und ein Graph Neural Network (GNN) verwendet. Das GNN repräsentiert effektiv den komplexen Zustand von Aufträgen, Maschinen und Rüstvorgängen, was es dem PPO-Agenten ermöglicht, eine direkte Scheduling-Policy zu erlernen. Gesteuert durch eine mehrzielige Belohnungsfunktion minimiert der Agent gleichzeitig TWT und TST. Experimentelle Ergebnisse mit Benchmark-Instanzen zeigen, dass unser PPO-GNN-Agent eine Standard-Zuweisungsregel und eine Metaheuristik signifikant übertrifft und einen überlegenen Kompromiss zwischen beiden Zielen erreicht. Dies bietet eine robuste und skalierbare Lösung für komplexe Fertigungsplanung.
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.