Graf-Versterkte Diepe Reinforcement Learning voor Multi-Doelstelling Onverwante Parallelle Machine Planning
Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling
February 8, 2026
Auteurs: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI
Samenvatting
Het Onverwante Parallelle Machine Scheduling Probleem (UPMSP) met vrijgegevenata, opstellingstijden en geschiktheidsbeperkingen vormt een aanzienlijke multi-objectieve uitdaging. Traditionele methoden hebben moeite om het minimaliseren van de Totale Gewogen Verlettermijn (TWT) en de Totale Opstellingstijd (TST) in evenwicht te brengen. Dit artikel stelt een Deep Reinforcement Learning-raamwerk voor dat gebruikmaakt van Proximal Policy Optimization (PPO) en een Graph Neural Network (GNN). Het GNN representeert effectief de complexe toestand van taken, machines en opstellingen, waardoor de PPO-agent een direct planningsbeleid kan leren. Geleid door een multi-objectieve beloningsfunctie, minimaliseert de agent gelijktijdig zowel TWT als TST. Experimentele resultaten op benchmarkinstanties tonen aan dat onze PPO-GNN-agent aanzienlijk beter presteert dan een standaard dispatchregel en een metaheuristiek, en zo een superieure afweging tussen beide doelstellingen bereikt. Dit biedt een robuuste en schaalbare oplossing voor complexe productieplanning.
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.