ChatPaper.aiChatPaper

Графово-усиленное глубокое обучение с подкреплением для многокритериального распараллеливания заданий на несвязанных машинах

Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling

February 8, 2026
Авторы: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI

Аннотация

Проблема составления расписаний для несвязанных параллельных машин (UPMSP) с учетом времени поступления заказов, переналадок и ограничений на пригодность представляет собой значительную многокритериальную задачу. Традиционные методы испытывают трудности с балансировкой минимизации общего взвешенного запаздывания (TWT) и общего времени переналадок (TST). В данной статье предлагается фреймворк глубокого обучения с подкреплением на основе Проксимальной политики оптимизации (PPO) и графовой нейронной сети (GNN). GNN эффективно представляет сложное состояние заказов, машин и переналадок, что позволяет агенту PPO обучаться прямой политике составления расписаний. Руководствуясь многокритериальной функцией вознаграждения, агент одновременно минимизирует TWT и TST. Результаты экспериментов на тестовых примерах демонстрируют, что наш агент PPO-GNN существенно превосходит стандартное диспетчерское правило и метаэвристический метод, достигая превосходного компромисса между обоими целевыми показателями. Это обеспечивает надежное и масштабируемое решение для сложных задач производственного планирования.
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.
PDF11February 13, 2026