ChatPaper.aiChatPaper

Gebruik het Online Netwerk als het Kan: Op Weg naar Snel en Stabiel Reinforcement Learning

Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning

October 2, 2025
Auteurs: Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo
cs.AI

Samenvatting

Het gebruik van doelnetwerken is een populaire aanpak voor het schatten van waardefuncties in diep Reinforcement Learning (RL). Hoewel effectief, blijft het doelnetwerk een compromisoplossing die stabiliteit behoudt ten koste van langzaam bewegende doelen, wat het leren vertraagt. Omgekeerd is het gebruik van het online netwerk als een gebootstrapt doel intuïtief aantrekkelijk, hoewel bekend is dat dit tot instabiel leren leidt. In dit werk streven we ernaar het beste van beide werelden te verkrijgen door een nieuwe update-regel te introduceren die het doel berekent met behulp van de MINimale schatting tussen het Doel- en Onlinenetwerk, wat aanleiding geeft tot onze methode, MINTO. Door deze eenvoudige, maar effectieve aanpassing, laten we zien dat MINTO sneller en stabiel leren van waardefuncties mogelijk maakt, door de potentiële overschatting te verminderen die ontstaat bij het gebruik van het online netwerk voor bootstrapping. Opmerkelijk is dat MINTO naadloos kan worden geïntegreerd in een breed scala aan waardegestuurde en actor-critic algoritmen tegen verwaarloosbare kosten. We evalueren MINTO uitgebreid over diverse benchmarks, variërend van online en offline RL, evenals discrete en continue actieruimtes. Over alle benchmarks heen verbetert MINTO consistent de prestaties, wat de brede toepasbaarheid en effectiviteit ervan aantoont.
English
The use of target networks is a popular approach for estimating value functions in deep Reinforcement Learning (RL). While effective, the target network remains a compromise solution that preserves stability at the cost of slowly moving targets, thus delaying learning. Conversely, using the online network as a bootstrapped target is intuitively appealing, albeit well-known to lead to unstable learning. In this work, we aim to obtain the best out of both worlds by introducing a novel update rule that computes the target using the MINimum estimate between the Target and Online network, giving rise to our method, MINTO. Through this simple, yet effective modification, we show that MINTO enables faster and stable value function learning, by mitigating the potential overestimation bias of using the online network for bootstrapping. Notably, MINTO can be seamlessly integrated into a wide range of value-based and actor-critic algorithms with a negligible cost. We evaluate MINTO extensively across diverse benchmarks, spanning online and offline RL, as well as discrete and continuous action spaces. Across all benchmarks, MINTO consistently improves performance, demonstrating its broad applicability and effectiveness.
PDF12October 10, 2025