Exploitatie Is Alles Wat Je Nodig Hebt... voor Exploratie

Samenvatting

Het waarborgen van voldoende exploratie is een centrale uitdaging bij het trainen van meta-reinforcement learning (meta-RL) agents om nieuwe omgevingen op te lossen. Conventionele oplossingen voor het exploratie-exploitatie dilemma voegen expliciete prikkels toe, zoals randomisatie, onzekerheidsbonussen of intrinsieke beloningen, om exploratie te stimuleren. In dit werk stellen we de hypothese dat een agent die uitsluitend is getraind om een hebzuchtig (alleen exploitatie) doel te maximaliseren, toch emergent exploratief gedrag kan vertonen, mits aan drie voorwaarden wordt voldaan: (1) Terugkerende Omgevingsstructuur, waarbij de omgeving herhaalbare regelmatigheden bevat die ervaringen uit het verleden kunnen gebruiken om toekomstige keuzes te informeren; (2) Agentgeheugen, waardoor de agent historische interactiegegevens kan behouden en benutten; en (3) Langetermijn Krediettoewijzing, waarbij het leren rendementen verspreidt over een tijdsbestek dat voldoende is om de vertraagde voordelen van exploratie te laten informeren over huidige beslissingen. Door experimenten in stochastische multi-armed bandits en temporeel uitgebreide gridwerelden, observeren we dat, wanneer zowel structuur als geheugen aanwezig zijn, een beleid dat is getraind op een strikt hebzuchtig doel informatiezoekend exploratief gedrag vertoont. We tonen verder aan, door middel van gecontroleerde ablatie-experimenten, dat emergent exploratie verdwijnt als ofwel de omgevingsstructuur ofwel het agentgeheugen ontbreekt (Voorwaarden 1 & 2). Verrassend genoeg voorkomt het verwijderen van langetermijn krediettoewijzing (Voorwaarde 3) niet altijd emergent exploratie – een resultaat dat we toeschrijven aan het pseudo-Thompson Sampling-effect. Deze bevindingen suggereren dat, onder de juiste voorwaarden, exploratie en exploitatie niet noodzakelijkerwijs als orthogonale doelen hoeven te worden behandeld, maar kunnen voortkomen uit een uniform beloningsmaximalisatieproces.

English

Ensuring sufficient exploration is a central challenge when training meta-reinforcement learning (meta-RL) agents to solve novel environments. Conventional solutions to the exploration-exploitation dilemma inject explicit incentives such as randomization, uncertainty bonuses, or intrinsic rewards to encourage exploration. In this work, we hypothesize that an agent trained solely to maximize a greedy (exploitation-only) objective can nonetheless exhibit emergent exploratory behavior, provided three conditions are met: (1) Recurring Environmental Structure, where the environment features repeatable regularities that allow past experience to inform future choices; (2) Agent Memory, enabling the agent to retain and utilize historical interaction data; and (3) Long-Horizon Credit Assignment, where learning propagates returns over a time frame sufficient for the delayed benefits of exploration to inform current decisions. Through experiments in stochastic multi-armed bandits and temporally extended gridworlds, we observe that, when both structure and memory are present, a policy trained on a strictly greedy objective exhibits information-seeking exploratory behavior. We further demonstrate, through controlled ablations, that emergent exploration vanishes if either environmental structure or agent memory is absent (Conditions 1 & 2). Surprisingly, removing long-horizon credit assignment (Condition 3) does not always prevent emergent exploration-a result we attribute to the pseudo-Thompson Sampling effect. These findings suggest that, under the right prerequisites, exploration and exploitation need not be treated as orthogonal objectives but can emerge from a unified reward-maximization process.

Exploitatie Is Alles Wat Je Nodig Hebt... voor Exploratie

Exploitation Is All You Need... for Exploration

Samenvatting

Support