L'exploitation est tout ce dont vous avez besoin... pour l'exploration.

papers.abstract

Assurer une exploration suffisante constitue un défi central lors de l'entraînement d'agents de méta-apprentissage par renforcement (méta-RL) pour résoudre des environnements nouveaux. Les solutions conventionnelles au dilemme exploration-exploitation injectent des incitations explicites telles que la randomisation, des bonus d'incertitude ou des récompenses intrinsèques pour encourager l'exploration. Dans ce travail, nous émettons l'hypothèse qu'un agent entraîné uniquement à maximiser un objectif purement avide (axé sur l'exploitation) peut néanmoins manifester un comportement exploratoire émergent, à condition que trois critères soient remplis : (1) une structure environnementale récurrente, où l'environnement présente des régularités répétables permettant aux expériences passées d'éclairer les choix futurs ; (2) une mémoire de l'agent, lui permettant de retenir et d'utiliser les données historiques d'interaction ; et (3) une attribution de crédit à long terme, où l'apprentissage propage les retours sur une période suffisante pour que les bénéfices différés de l'exploration influencent les décisions actuelles. À travers des expériences sur des bandits multi-bras stochastiques et des grilles temporellement étendues, nous observons que, lorsque la structure et la mémoire sont présentes, une politique entraînée sur un objectif strictement avide manifeste un comportement exploratoire axé sur la recherche d'informations. Nous démontrons en outre, par des ablations contrôlées, que l'exploration émergente disparaît si la structure environnementale ou la mémoire de l'agent est absente (critères 1 et 2). Étonnamment, la suppression de l'attribution de crédit à long terme (critère 3) n'empêche pas toujours l'exploration émergente—un résultat que nous attribuons à l'effet pseudo-Thompson Sampling. Ces résultats suggèrent que, sous les bonnes conditions préalables, l'exploration et l'exploitation ne doivent pas être traitées comme des objectifs orthogonaux, mais peuvent émerger d'un processus unifié de maximisation des récompenses.

English

Ensuring sufficient exploration is a central challenge when training meta-reinforcement learning (meta-RL) agents to solve novel environments. Conventional solutions to the exploration-exploitation dilemma inject explicit incentives such as randomization, uncertainty bonuses, or intrinsic rewards to encourage exploration. In this work, we hypothesize that an agent trained solely to maximize a greedy (exploitation-only) objective can nonetheless exhibit emergent exploratory behavior, provided three conditions are met: (1) Recurring Environmental Structure, where the environment features repeatable regularities that allow past experience to inform future choices; (2) Agent Memory, enabling the agent to retain and utilize historical interaction data; and (3) Long-Horizon Credit Assignment, where learning propagates returns over a time frame sufficient for the delayed benefits of exploration to inform current decisions. Through experiments in stochastic multi-armed bandits and temporally extended gridworlds, we observe that, when both structure and memory are present, a policy trained on a strictly greedy objective exhibits information-seeking exploratory behavior. We further demonstrate, through controlled ablations, that emergent exploration vanishes if either environmental structure or agent memory is absent (Conditions 1 & 2). Surprisingly, removing long-horizon credit assignment (Condition 3) does not always prevent emergent exploration-a result we attribute to the pseudo-Thompson Sampling effect. These findings suggest that, under the right prerequisites, exploration and exploitation need not be treated as orthogonal objectives but can emerge from a unified reward-maximization process.

L'exploitation est tout ce dont vous avez besoin... pour l'exploration.

Exploitation Is All You Need... for Exploration

papers.abstract

Support