Graph-Enhanced Deep Reinforcement Learning para Programação de Máquinas Paralelas Não Relacionadas com Múltiplos Objetivos
Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling
February 8, 2026
Autores: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI
Resumo
O Problema de Escalonamento em Máquinas Paralelas Não Relacionadas (UPMSP) com datas de liberação, preparações e restrições de elegibilidade representa um desafio multiobjetivo significativo. Os métodos tradicionais lutam para equilibrar a minimização do Atraso Total Ponderado (TWT) e do Tempo Total de Preparação (TST). Este artigo propõe uma estrutura de Aprendizagem por Reforço Profundo utilizando a Otimização de Políticas Proximais (PPO) e uma Rede Neural de Grafos (GNN). A GNN representa eficazmente o estado complexo de tarefas, máquinas e preparações, permitindo que o agente PPO aprenda uma política de escalonamento direta. Orientado por uma função de recompensa multiobjetivo, o agente minimiza simultaneamente o TWT e o TST. Resultados experimentais em instâncias de referência demonstram que nosso agente PPO-GNN supera significativamente uma regra de despacho padrão e uma metaheurística, alcançando um equilíbrio superior entre ambos os objetivos. Isso fornece uma solução robusta e escalável para o escalonamento complexo na manufatura.
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.