Graph-Enhanced Deep Reinforcement Learning per la Pianificazione Multi-Obiettivo su Macchine Parallele Non Correlate
Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling
February 8, 2026
Autori: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI
Abstract
Il problema di schedulazione su macchine parallele non correlate (UPMSP) con date di rilascio, setup e vincoli di idoneità rappresenta una sfida multi-obiettivo significativa. I metodi tradizionali faticano a bilanciare la minimizzazione del Ritardo Ponderato Totale (TWT) e del Tempo di Setup Totale (TST). Questo articolo propone un framework di Apprendimento per Rinforzo Profondo che utilizza l'Ottimizzazione delle Politiche Prossimali (PPO) e una Rete Neurale Grafo (GNN). La GNN rappresenta efficacemente lo stato complesso di lavorazioni, macchine e setup, consentendo all'agente PPO di apprendere una politica di schedulazione diretta. Guidato da una funzione di ricompensa multi-obiettivo, l'agente minimizza simultaneamente TWT e TST. I risultati sperimentali su istanze benchmark dimostrano che il nostro agente PPO-GNN supera significativamente una regola di dispacciamento standard e una meta-euristica, raggiungendo un compromesso superiore tra entrambi gli obiettivi. Ciò fornisce una soluzione robusta e scalabile per la schedulazione manifatturiera complessa.
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.