가능하다면 온라인 네트워크를 사용하라: 빠르고 안정적인 강화 학습을 향하여
Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning
October 2, 2025
저자: Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo
cs.AI
초록
타겟 네트워크의 사용은 딥 강화학습(RL)에서 가치 함수를 추정하기 위한 널리 사용되는 접근법입니다. 효과적이기는 하지만, 타겟 네트워크는 안정성을 유지하는 대신 느리게 움직이는 타겟을 사용함으로써 학습 속도를 지연시키는 절충안으로 남아 있습니다. 반면, 온라인 네트워크를 부트스트랩 타겟으로 사용하는 것은 직관적으로 매력적이지만, 학습의 불안정성을 초래한다는 것이 잘 알려져 있습니다. 본 연구에서는 타겟 네트워크와 온라인 네트워크 간의 최소값(MINimum) 추정치를 사용하여 타겟을 계산하는 새로운 업데이트 규칙을 도입함으로써 두 가지 접근법의 장점을 모두 취하고자 합니다. 이를 통해 우리의 방법론인 MINTO를 제안합니다. 이 간단하지만 효과적인 수정을 통해, MINTO는 온라인 네트워크를 부트스트랩에 사용함으로써 발생할 수 있는 과대추정 편향을 완화하여 더 빠르고 안정적인 가치 함수 학습을 가능하게 합니다. 특히, MINTO는 다양한 가치 기반 및 액터-크리틱 알고리즘에 거의 비용 없이 원활하게 통합될 수 있습니다. 우리는 MINTO를 온라인 및 오프라인 RL, 그리고 이산 및 연속적인 행동 공간에 걸친 다양한 벤치마크에서 광범위하게 평가합니다. 모든 벤치마크에서 MINTO는 일관되게 성능을 향상시키며, 그 광범위한 적용 가능성과 효과성을 입증합니다.
English
The use of target networks is a popular approach for estimating value
functions in deep Reinforcement Learning (RL). While effective, the target
network remains a compromise solution that preserves stability at the cost of
slowly moving targets, thus delaying learning. Conversely, using the online
network as a bootstrapped target is intuitively appealing, albeit well-known to
lead to unstable learning. In this work, we aim to obtain the best out of both
worlds by introducing a novel update rule that computes the target using the
MINimum estimate between the Target and Online network, giving rise to our
method, MINTO. Through this simple, yet effective modification, we show that
MINTO enables faster and stable value function learning, by mitigating the
potential overestimation bias of using the online network for bootstrapping.
Notably, MINTO can be seamlessly integrated into a wide range of value-based
and actor-critic algorithms with a negligible cost. We evaluate MINTO
extensively across diverse benchmarks, spanning online and offline RL, as well
as discrete and continuous action spaces. Across all benchmarks, MINTO
consistently improves performance, demonstrating its broad applicability and
effectiveness.