ChatPaper.aiChatPaper

Refuerzo del Aprendizaje Profundo Mejorado con Grafos para la Programación de Múltiples Objetivos en Máquinas Paralelas No Relacionadas

Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling

February 8, 2026
Autores: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI

Resumen

El Problema de Planificación de Máquinas Paralelas No Relacionadas (UPMSP) con fechas de liberación, preparaciones y restricciones de elegibilidad presenta un desafío multiobjetivo significativo. Los métodos tradicionales tienen dificultades para equilibrar la minimización de la Tardanza Total Ponderada (TWT) y el Tiempo Total de Preparación (TST). Este artículo propone un marco de Aprendizaje por Refuerzo Profundo que utiliza la Optimización de Políticas Proximales (PPO) y una Red Neuronal de Grafo (GNN). La GNN representa eficazmente el estado complejo de trabajos, máquinas y preparaciones, permitiendo que el agente PPO aprenda una política de planificación directa. Guiado por una función de recompensa multiobjetivo, el agente minimiza simultáneamente la TWT y el TST. Los resultados experimentales en instancias de referencia demuestran que nuestro agente PPO-GNN supera significativamente a una regla de despacho estándar y a una metaheurística, logrando un equilibrio superior entre ambos objetivos. Esto proporciona una solución robusta y escalable para la planificación compleja en entornos de fabricación.
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.
PDF11February 13, 2026