Utilizza la Rete Online Se Possibile: Verso un Apprendimento per Rinforzo Rapido e Stabile
Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning
October 2, 2025
Autori: Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo
cs.AI
Abstract
L'uso delle reti target è un approccio popolare per stimare le funzioni di valore nell'apprendimento per rinforzo profondo (Reinforcement Learning, RL). Sebbene efficace, la rete target rimane una soluzione di compromesso che preserva la stabilità al costo di target che si muovono lentamente, ritardando così l'apprendimento. Al contrario, utilizzare la rete online come target bootstrap è intuitivamente allettante, sebbene sia noto che porti a un apprendimento instabile. In questo lavoro, miriamo a ottenere il meglio di entrambi i mondi introducendo una nuova regola di aggiornamento che calcola il target utilizzando la stima MINima tra la rete Target e quella Online, dando vita al nostro metodo, MINTO. Attraverso questa semplice ma efficace modifica, dimostriamo che MINTO consente un apprendimento più rapido e stabile della funzione di valore, mitigando il potenziale bias di sovrastima derivante dall'uso della rete online per il bootstrap. In particolare, MINTO può essere integrato senza soluzione di continuità in un'ampia gamma di algoritmi basati su valore e actor-critic con un costo trascurabile. Valutiamo MINTO estensivamente su diversi benchmark, che coprono RL online e offline, nonché spazi di azione discreti e continui. In tutti i benchmark, MINTO migliora costantemente le prestazioni, dimostrando la sua ampia applicabilità ed efficacia.
English
The use of target networks is a popular approach for estimating value
functions in deep Reinforcement Learning (RL). While effective, the target
network remains a compromise solution that preserves stability at the cost of
slowly moving targets, thus delaying learning. Conversely, using the online
network as a bootstrapped target is intuitively appealing, albeit well-known to
lead to unstable learning. In this work, we aim to obtain the best out of both
worlds by introducing a novel update rule that computes the target using the
MINimum estimate between the Target and Online network, giving rise to our
method, MINTO. Through this simple, yet effective modification, we show that
MINTO enables faster and stable value function learning, by mitigating the
potential overestimation bias of using the online network for bootstrapping.
Notably, MINTO can be seamlessly integrated into a wide range of value-based
and actor-critic algorithms with a negligible cost. We evaluate MINTO
extensively across diverse benchmarks, spanning online and offline RL, as well
as discrete and continuous action spaces. Across all benchmarks, MINTO
consistently improves performance, demonstrating its broad applicability and
effectiveness.