ChatPaper.aiChatPaper

Use a Rede Online Se Possível: Rumo a um Aprendizado por Reforço Rápido e Estável

Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning

October 2, 2025
Autores: Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo
cs.AI

Resumo

O uso de redes alvo é uma abordagem popular para estimar funções de valor em Aprendizado por Reforço Profundo (RL, do inglês Reinforcement Learning). Embora eficaz, a rede alvo permanece uma solução de compromisso que preserva a estabilidade ao custo de alvos que se movem lentamente, retardando assim o aprendizado. Por outro lado, usar a rede online como um alvo bootstrapped é intuitivamente atraente, embora seja bem conhecido que isso leva a um aprendizado instável. Neste trabalho, buscamos obter o melhor dos dois mundos ao introduzir uma nova regra de atualização que calcula o alvo usando a estimativa MÍNima entre a rede Alvo e a rede Online, dando origem ao nosso método, MINTO. Por meio dessa modificação simples, porém eficaz, mostramos que o MINTO permite um aprendizado de função de valor mais rápido e estável, mitigando o potencial viés de superestimação ao usar a rede online para bootstrapping. Notavelmente, o MINTO pode ser integrado de forma contínua em uma ampla gama de algoritmos baseados em valor e de ator-crítico com um custo insignificante. Avaliamos o MINTO extensivamente em diversos benchmarks, abrangendo RL online e offline, bem como espaços de ação discretos e contínuos. Em todos os benchmarks, o MINTO melhora consistentemente o desempenho, demonstrando sua ampla aplicabilidade e eficácia.
English
The use of target networks is a popular approach for estimating value functions in deep Reinforcement Learning (RL). While effective, the target network remains a compromise solution that preserves stability at the cost of slowly moving targets, thus delaying learning. Conversely, using the online network as a bootstrapped target is intuitively appealing, albeit well-known to lead to unstable learning. In this work, we aim to obtain the best out of both worlds by introducing a novel update rule that computes the target using the MINimum estimate between the Target and Online network, giving rise to our method, MINTO. Through this simple, yet effective modification, we show that MINTO enables faster and stable value function learning, by mitigating the potential overestimation bias of using the online network for bootstrapping. Notably, MINTO can be seamlessly integrated into a wide range of value-based and actor-critic algorithms with a negligible cost. We evaluate MINTO extensively across diverse benchmarks, spanning online and offline RL, as well as discrete and continuous action spaces. Across all benchmarks, MINTO consistently improves performance, demonstrating its broad applicability and effectiveness.
PDF12October 10, 2025