L'exploitation est tout ce dont vous avez besoin... pour l'exploration.
Exploitation Is All You Need... for Exploration
August 2, 2025
papers.authors: Micah Rentschler, Jesse Roberts
cs.AI
papers.abstract
Assurer une exploration suffisante constitue un défi central lors de l'entraînement d'agents de méta-apprentissage par renforcement (méta-RL) pour résoudre des environnements nouveaux. Les solutions conventionnelles au dilemme exploration-exploitation injectent des incitations explicites telles que la randomisation, des bonus d'incertitude ou des récompenses intrinsèques pour encourager l'exploration. Dans ce travail, nous émettons l'hypothèse qu'un agent entraîné uniquement à maximiser un objectif purement avide (axé sur l'exploitation) peut néanmoins manifester un comportement exploratoire émergent, à condition que trois critères soient remplis : (1) une structure environnementale récurrente, où l'environnement présente des régularités répétables permettant aux expériences passées d'éclairer les choix futurs ; (2) une mémoire de l'agent, lui permettant de retenir et d'utiliser les données historiques d'interaction ; et (3) une attribution de crédit à long terme, où l'apprentissage propage les retours sur une période suffisante pour que les bénéfices différés de l'exploration influencent les décisions actuelles. À travers des expériences sur des bandits multi-bras stochastiques et des grilles temporellement étendues, nous observons que, lorsque la structure et la mémoire sont présentes, une politique entraînée sur un objectif strictement avide manifeste un comportement exploratoire axé sur la recherche d'informations. Nous démontrons en outre, par des ablations contrôlées, que l'exploration émergente disparaît si la structure environnementale ou la mémoire de l'agent est absente (critères 1 et 2). Étonnamment, la suppression de l'attribution de crédit à long terme (critère 3) n'empêche pas toujours l'exploration émergente—un résultat que nous attribuons à l'effet pseudo-Thompson Sampling. Ces résultats suggèrent que, sous les bonnes conditions préalables, l'exploration et l'exploitation ne doivent pas être traitées comme des objectifs orthogonaux, mais peuvent émerger d'un processus unifié de maximisation des récompenses.
English
Ensuring sufficient exploration is a central challenge when training
meta-reinforcement learning (meta-RL) agents to solve novel environments.
Conventional solutions to the exploration-exploitation dilemma inject explicit
incentives such as randomization, uncertainty bonuses, or intrinsic rewards to
encourage exploration. In this work, we hypothesize that an agent trained
solely to maximize a greedy (exploitation-only) objective can nonetheless
exhibit emergent exploratory behavior, provided three conditions are met: (1)
Recurring Environmental Structure, where the environment features repeatable
regularities that allow past experience to inform future choices; (2) Agent
Memory, enabling the agent to retain and utilize historical interaction data;
and (3) Long-Horizon Credit Assignment, where learning propagates returns over
a time frame sufficient for the delayed benefits of exploration to inform
current decisions. Through experiments in stochastic multi-armed bandits and
temporally extended gridworlds, we observe that, when both structure and memory
are present, a policy trained on a strictly greedy objective exhibits
information-seeking exploratory behavior. We further demonstrate, through
controlled ablations, that emergent exploration vanishes if either
environmental structure or agent memory is absent (Conditions 1 & 2).
Surprisingly, removing long-horizon credit assignment (Condition 3) does not
always prevent emergent exploration-a result we attribute to the
pseudo-Thompson Sampling effect. These findings suggest that, under the right
prerequisites, exploration and exploitation need not be treated as orthogonal
objectives but can emerge from a unified reward-maximization process.