MaxInfoRL: Het stimuleren van verkenning in reinforcement learning door middel van maximalisatie van informatiewinst

Samenvatting

Reinforcement learning (RL) algoritmes streven ernaar om het balanceren van het benutten van de huidige beste strategie met het verkennen van nieuwe opties die kunnen leiden tot hogere beloningen. De meeste gangbare RL-algoritmes maken gebruik van ongerichte verkenning, d.w.z. het selecteren van willekeurige sequenties van acties. Verkenning kan ook gericht worden door gebruik te maken van intrinsieke beloningen, zoals nieuwsgierigheid of model epistemische onzekerheid. Het effectief balanceren van taak- en intrinsieke beloningen is echter uitdagend en vaak afhankelijk van de taak. In dit werk introduceren we een kader, MaxInfoRL, voor het balanceren van intrinsieke en extrinsieke verkenning. MaxInfoRL stuurt verkenning naar informatieve overgangen door het maximaliseren van intrinsieke beloningen zoals de informatiewinst over de onderliggende taak. Wanneer gecombineerd met Boltzmann verkenning, ruilt deze aanpak natuurlijk de maximalisatie van de waardefunctie in voor die van de entropie over staten, beloningen en acties. We tonen aan dat onze aanpak sublineaire spijt bereikt in de vereenvoudigde setting van multi-armed bandits. Vervolgens passen we deze algemene formulering toe op een verscheidenheid van off-policy modelvrije RL-methoden voor continue toestands-actieruimtes, resulterend in nieuwe algoritmes die superieure prestaties behalen bij moeilijke verkenningstaken en complexe scenario's zoals visuele controle taken.

English

Reinforcement learning (RL) algorithms aim to balance exploiting the current best strategy with exploring new options that could lead to higher rewards. Most common RL algorithms use undirected exploration, i.e., select random sequences of actions. Exploration can also be directed using intrinsic rewards, such as curiosity or model epistemic uncertainty. However, effectively balancing task and intrinsic rewards is challenging and often task-dependent. In this work, we introduce a framework, MaxInfoRL, for balancing intrinsic and extrinsic exploration. MaxInfoRL steers exploration towards informative transitions, by maximizing intrinsic rewards such as the information gain about the underlying task. When combined with Boltzmann exploration, this approach naturally trades off maximization of the value function with that of the entropy over states, rewards, and actions. We show that our approach achieves sublinear regret in the simplified setting of multi-armed bandits. We then apply this general formulation to a variety of off-policy model-free RL methods for continuous state-action spaces, yielding novel algorithms that achieve superior performance across hard exploration problems and complex scenarios such as visual control tasks.

MaxInfoRL: Het stimuleren van verkenning in reinforcement learning door middel van maximalisatie van informatiewinst

MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Samenvatting

Support