MaxInfoRL: Het stimuleren van verkenning in reinforcement learning door middel van maximalisatie van informatiewinst
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization
December 16, 2024
Auteurs: Bhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza
cs.AI
Samenvatting
Reinforcement learning (RL) algoritmes streven ernaar om het balanceren van het benutten van de huidige beste strategie met het verkennen van nieuwe opties die kunnen leiden tot hogere beloningen. De meeste gangbare RL-algoritmes maken gebruik van ongerichte verkenning, d.w.z. het selecteren van willekeurige sequenties van acties. Verkenning kan ook gericht worden door gebruik te maken van intrinsieke beloningen, zoals nieuwsgierigheid of model epistemische onzekerheid. Het effectief balanceren van taak- en intrinsieke beloningen is echter uitdagend en vaak afhankelijk van de taak. In dit werk introduceren we een kader, MaxInfoRL, voor het balanceren van intrinsieke en extrinsieke verkenning. MaxInfoRL stuurt verkenning naar informatieve overgangen door het maximaliseren van intrinsieke beloningen zoals de informatiewinst over de onderliggende taak. Wanneer gecombineerd met Boltzmann verkenning, ruilt deze aanpak natuurlijk de maximalisatie van de waardefunctie in voor die van de entropie over staten, beloningen en acties. We tonen aan dat onze aanpak sublineaire spijt bereikt in de vereenvoudigde setting van multi-armed bandits. Vervolgens passen we deze algemene formulering toe op een verscheidenheid van off-policy modelvrije RL-methoden voor continue toestands-actieruimtes, resulterend in nieuwe algoritmes die superieure prestaties behalen bij moeilijke verkenningstaken en complexe scenario's zoals visuele controle taken.
English
Reinforcement learning (RL) algorithms aim to balance exploiting the current
best strategy with exploring new options that could lead to higher rewards.
Most common RL algorithms use undirected exploration, i.e., select random
sequences of actions. Exploration can also be directed using intrinsic rewards,
such as curiosity or model epistemic uncertainty. However, effectively
balancing task and intrinsic rewards is challenging and often task-dependent.
In this work, we introduce a framework, MaxInfoRL, for balancing intrinsic and
extrinsic exploration. MaxInfoRL steers exploration towards informative
transitions, by maximizing intrinsic rewards such as the information gain about
the underlying task. When combined with Boltzmann exploration, this approach
naturally trades off maximization of the value function with that of the
entropy over states, rewards, and actions. We show that our approach achieves
sublinear regret in the simplified setting of multi-armed bandits. We then
apply this general formulation to a variety of off-policy model-free RL methods
for continuous state-action spaces, yielding novel algorithms that achieve
superior performance across hard exploration problems and complex scenarios
such as visual control tasks.