ChatPaper.aiChatPaper

Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling

Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling

February 8, 2026
papers.authors: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI

papers.abstract

Le problème d'ordonnancement sur machines parallèles non identiques (UPMSP) avec dates de disponibilité, temps de configuration et contraintes d'éligibilité représente un défi multi-objectif significatif. Les méthodes traditionnelles peinent à équilibrer la minimisation du retard pondéré total (TWT) et du temps de configuration total (TST). Cet article propose un cadre d'apprentissage par renforcement profond utilisant l'optimisation de politique proximale (PPO) et un réseau de neurones graphiques (GNN). Le GNN représente efficacement l'état complexe des tâches, des machines et des configurations, permettant à l'agent PPO d'apprendre une politique d'ordonnancement directe. Guidé par une fonction de récompense multi-objectif, l'agent minimise simultanément le TWT et le TST. Les résultats expérimentaux sur des instances de référence démontrent que notre agent PPO-GNN surpasse significativement une règle d'ordonnancement standard et une métaheuristique, atteignant un compromis supérieur entre les deux objectifs. Cela fournit une solution robuste et évolutive pour l'ordonnancement complexe en milieu manufacturier.
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.
PDF11February 13, 2026