Exploitatie Is Alles Wat Je Nodig Hebt... voor Exploratie
Exploitation Is All You Need... for Exploration
August 2, 2025
Auteurs: Micah Rentschler, Jesse Roberts
cs.AI
Samenvatting
Het waarborgen van voldoende exploratie is een centrale uitdaging bij het trainen van meta-reinforcement learning (meta-RL) agents om nieuwe omgevingen op te lossen. Conventionele oplossingen voor het exploratie-exploitatie dilemma voegen expliciete prikkels toe, zoals randomisatie, onzekerheidsbonussen of intrinsieke beloningen, om exploratie te stimuleren. In dit werk stellen we de hypothese dat een agent die uitsluitend is getraind om een hebzuchtig (alleen exploitatie) doel te maximaliseren, toch emergent exploratief gedrag kan vertonen, mits aan drie voorwaarden wordt voldaan: (1) Terugkerende Omgevingsstructuur, waarbij de omgeving herhaalbare regelmatigheden bevat die ervaringen uit het verleden kunnen gebruiken om toekomstige keuzes te informeren; (2) Agentgeheugen, waardoor de agent historische interactiegegevens kan behouden en benutten; en (3) Langetermijn Krediettoewijzing, waarbij het leren rendementen verspreidt over een tijdsbestek dat voldoende is om de vertraagde voordelen van exploratie te laten informeren over huidige beslissingen. Door experimenten in stochastische multi-armed bandits en temporeel uitgebreide gridwerelden, observeren we dat, wanneer zowel structuur als geheugen aanwezig zijn, een beleid dat is getraind op een strikt hebzuchtig doel informatiezoekend exploratief gedrag vertoont. We tonen verder aan, door middel van gecontroleerde ablatie-experimenten, dat emergent exploratie verdwijnt als ofwel de omgevingsstructuur ofwel het agentgeheugen ontbreekt (Voorwaarden 1 & 2). Verrassend genoeg voorkomt het verwijderen van langetermijn krediettoewijzing (Voorwaarde 3) niet altijd emergent exploratie – een resultaat dat we toeschrijven aan het pseudo-Thompson Sampling-effect. Deze bevindingen suggereren dat, onder de juiste voorwaarden, exploratie en exploitatie niet noodzakelijkerwijs als orthogonale doelen hoeven te worden behandeld, maar kunnen voortkomen uit een uniform beloningsmaximalisatieproces.
English
Ensuring sufficient exploration is a central challenge when training
meta-reinforcement learning (meta-RL) agents to solve novel environments.
Conventional solutions to the exploration-exploitation dilemma inject explicit
incentives such as randomization, uncertainty bonuses, or intrinsic rewards to
encourage exploration. In this work, we hypothesize that an agent trained
solely to maximize a greedy (exploitation-only) objective can nonetheless
exhibit emergent exploratory behavior, provided three conditions are met: (1)
Recurring Environmental Structure, where the environment features repeatable
regularities that allow past experience to inform future choices; (2) Agent
Memory, enabling the agent to retain and utilize historical interaction data;
and (3) Long-Horizon Credit Assignment, where learning propagates returns over
a time frame sufficient for the delayed benefits of exploration to inform
current decisions. Through experiments in stochastic multi-armed bandits and
temporally extended gridworlds, we observe that, when both structure and memory
are present, a policy trained on a strictly greedy objective exhibits
information-seeking exploratory behavior. We further demonstrate, through
controlled ablations, that emergent exploration vanishes if either
environmental structure or agent memory is absent (Conditions 1 & 2).
Surprisingly, removing long-horizon credit assignment (Condition 3) does not
always prevent emergent exploration-a result we attribute to the
pseudo-Thompson Sampling effect. These findings suggest that, under the right
prerequisites, exploration and exploitation need not be treated as orthogonal
objectives but can emerge from a unified reward-maximization process.