ChatPaper.aiChatPaper

グラフ拡張深層強化学習による多目的無関連並列マシンスケジューリング

Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling

February 8, 2026
著者: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek
cs.AI

要旨

解放時間、段取り時間、および資格制約を伴う無関連並列機械スケジューリング問題(UPMSP)は、重要な多目的最適化課題を提起する。従来手法では総重量遅れ時間(TWT)と総段取り時間(TST)の最小化のバランスを取ることが困難である。本論文は、近接方策最適化(PPO)とグラフニューラルネットワーク(GNN)を用いた深層強化学習フレームワークを提案する。GNNはジョブ、機械、段取りの複雑な状態を効果的に表現し、PPOエージェントが直接スケジューリング方策を学習することを可能にする。多目的報酬関数に導かれたエージェントは、TWTとTSTを同時に最小化する。ベンチマークインスタンスによる実験結果は、提案するPPO-GNNエージェントが標準的なディスパッチングルールとメタヒューリスティックを大幅に上回り、両目的間の優れたトレードオフを達成することを示す。これは複雑な製造スケジューリングに対する堅牢で拡張性の高いソリューションを提供する。
English
The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.
PDF11February 13, 2026