Nutzen Sie das Online-Netzwerk, wenn möglich: Auf dem Weg zu schnellem und stabilem Reinforcement Learning
Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning
October 2, 2025
papers.authors: Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo
cs.AI
papers.abstract
Die Verwendung von Zielnetzwerken ist ein weit verbreiteter Ansatz zur Schätzung von Wertfunktionen im Deep Reinforcement Learning (RL). Obwohl effektiv, bleibt das Zielnetzwerk ein Kompromiss, der Stabilität auf Kosten langsam beweglicher Ziele bewahrt und somit das Lernen verzögert. Umgekehrt ist die Verwendung des Online-Netzwerks als Bootstrap-Ziel intuitiv ansprechend, obwohl bekannt ist, dass dies zu instabilem Lernen führt. In dieser Arbeit streben wir an, das Beste aus beiden Welten zu erreichen, indem wir eine neuartige Aktualisierungsregel einführen, die das Ziel mithilfe der MINimalen Schätzung zwischen dem Ziel- und dem Online-Netzwerk berechnet, was zu unserer Methode MINTO führt. Durch diese einfache, aber effektive Modifikation zeigen wir, dass MINTO ein schnelleres und stabileres Lernen von Wertfunktionen ermöglicht, indem es den potenziellen Überschätzungsbias bei der Verwendung des Online-Netzwerks für das Bootstrapping reduziert. Bemerkenswerterweise kann MINTO nahtlos in eine Vielzahl von wertbasierten und Actor-Critic-Algorithmen mit vernachlässigbarem Aufwand integriert werden. Wir evaluieren MINTO umfassend über diverse Benchmarks hinweg, die sowohl Online- als auch Offline-RL sowie diskrete und kontinuierliche Aktionsräume abdecken. Über alle Benchmarks hinweg verbessert MINTO durchgängig die Leistung, was seine breite Anwendbarkeit und Effektivität unterstreicht.
English
The use of target networks is a popular approach for estimating value
functions in deep Reinforcement Learning (RL). While effective, the target
network remains a compromise solution that preserves stability at the cost of
slowly moving targets, thus delaying learning. Conversely, using the online
network as a bootstrapped target is intuitively appealing, albeit well-known to
lead to unstable learning. In this work, we aim to obtain the best out of both
worlds by introducing a novel update rule that computes the target using the
MINimum estimate between the Target and Online network, giving rise to our
method, MINTO. Through this simple, yet effective modification, we show that
MINTO enables faster and stable value function learning, by mitigating the
potential overestimation bias of using the online network for bootstrapping.
Notably, MINTO can be seamlessly integrated into a wide range of value-based
and actor-critic algorithms with a negligible cost. We evaluate MINTO
extensively across diverse benchmarks, spanning online and offline RL, as well
as discrete and continuous action spaces. Across all benchmarks, MINTO
consistently improves performance, demonstrating its broad applicability and
effectiveness.