Utilisez le réseau en ligne si possible : vers un apprentissage par renforcement rapide et stable
Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning
October 2, 2025
papers.authors: Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo
cs.AI
papers.abstract
L'utilisation de réseaux cibles est une approche populaire pour estimer les fonctions de valeur en apprentissage par renforcement profond (RL). Bien qu'efficace, le réseau cible reste une solution de compromis qui préserve la stabilité au prix de cibles se déplaçant lentement, retardant ainsi l'apprentissage. À l'inverse, utiliser le réseau en ligne comme cible bootstrap est intuitivement attrayant, bien que cela soit connu pour entraîner un apprentissage instable. Dans ce travail, nous visons à tirer le meilleur des deux mondes en introduisant une nouvelle règle de mise à jour qui calcule la cible en utilisant l'estimation MINimale entre le réseau Cible et le réseau en Ligne, donnant naissance à notre méthode, MINTO. Grâce à cette modification simple mais efficace, nous montrons que MINTO permet un apprentissage plus rapide et stable des fonctions de valeur, en atténuant le biais de surestimation potentiel lié à l'utilisation du réseau en ligne pour le bootstrap. Notamment, MINTO peut être intégré de manière transparente dans une large gamme d'algorithmes basés sur la valeur et de type acteur-critique, avec un coût négligeable. Nous évaluons MINTO de manière extensive sur divers benchmarks, couvrant le RL en ligne et hors ligne, ainsi que des espaces d'action discrets et continus. Sur tous les benchmarks, MINTO améliore systématiquement les performances, démontrant ainsi sa large applicabilité et son efficacité.
English
The use of target networks is a popular approach for estimating value
functions in deep Reinforcement Learning (RL). While effective, the target
network remains a compromise solution that preserves stability at the cost of
slowly moving targets, thus delaying learning. Conversely, using the online
network as a bootstrapped target is intuitively appealing, albeit well-known to
lead to unstable learning. In this work, we aim to obtain the best out of both
worlds by introducing a novel update rule that computes the target using the
MINimum estimate between the Target and Online network, giving rise to our
method, MINTO. Through this simple, yet effective modification, we show that
MINTO enables faster and stable value function learning, by mitigating the
potential overestimation bias of using the online network for bootstrapping.
Notably, MINTO can be seamlessly integrated into a wide range of value-based
and actor-critic algorithms with a negligible cost. We evaluate MINTO
extensively across diverse benchmarks, spanning online and offline RL, as well
as discrete and continuous action spaces. Across all benchmarks, MINTO
consistently improves performance, demonstrating its broad applicability and
effectiveness.