ChatPaper.aiChatPaper

Используйте онлайн-сеть, если это возможно: в сторону быстрого и стабильного обучения с подкреплением

Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning

October 2, 2025
Авторы: Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo
cs.AI

Аннотация

Использование целевых сетей является популярным подходом для оценки функций ценности в глубоком обучении с подкреплением (RL). Хотя этот метод эффективен, целевая сеть остается компромиссным решением, которое обеспечивает стабильность за счет медленно изменяющихся целей, что замедляет процесс обучения. С другой стороны, использование онлайн-сети в качестве целевой для бутстреппинга интуитивно привлекательно, однако, как известно, приводит к нестабильному обучению. В данной работе мы стремимся объединить лучшие стороны обоих подходов, введя новое правило обновления, которое вычисляет цель с использованием МИНимальной оценки между целевой и онлайн-сетью, что дает начало нашему методу MINTO. Благодаря этой простой, но эффективной модификации мы показываем, что MINTO позволяет ускорить и стабилизировать обучение функции ценности, смягчая потенциальное смещение переоценки, возникающее при использовании онлайн-сети для бутстреппинга. Примечательно, что MINTO может быть легко интегрирован в широкий спектр алгоритмов, основанных на ценности, и актор-критик, с минимальными затратами. Мы проводим всестороннюю оценку MINTO на различных тестовых задачах, охватывающих как онлайн, так и оффлайн RL, а также дискретные и непрерывные пространства действий. Во всех тестах MINTO последовательно улучшает производительность, демонстрируя свою широкую применимость и эффективность.
English
The use of target networks is a popular approach for estimating value functions in deep Reinforcement Learning (RL). While effective, the target network remains a compromise solution that preserves stability at the cost of slowly moving targets, thus delaying learning. Conversely, using the online network as a bootstrapped target is intuitively appealing, albeit well-known to lead to unstable learning. In this work, we aim to obtain the best out of both worlds by introducing a novel update rule that computes the target using the MINimum estimate between the Target and Online network, giving rise to our method, MINTO. Through this simple, yet effective modification, we show that MINTO enables faster and stable value function learning, by mitigating the potential overestimation bias of using the online network for bootstrapping. Notably, MINTO can be seamlessly integrated into a wide range of value-based and actor-critic algorithms with a negligible cost. We evaluate MINTO extensively across diverse benchmarks, spanning online and offline RL, as well as discrete and continuous action spaces. Across all benchmarks, MINTO consistently improves performance, demonstrating its broad applicability and effectiveness.
PDF12October 10, 2025