Lo Sfruttamento È Tutto Ciò di Cui Hai Bisogno... per l'Esplorazione

Abstract

Garantire un'esplorazione sufficiente rappresenta una sfida centrale nell'addestramento di agenti di meta-apprendimento per rinforzo (meta-RL) per risolvere ambienti nuovi. Le soluzioni convenzionali al dilemma esplorazione-sfruttamento introducono incentivi espliciti come la randomizzazione, bonus di incertezza o ricompense intrinseche per incoraggiare l'esplorazione. In questo lavoro, ipotizziamo che un agente addestrato esclusivamente per massimizzare un obiettivo avido (solo sfruttamento) possa comunque mostrare un comportamento esplorativo emergente, purché siano soddisfatte tre condizioni: (1) Struttura Ambientale Ricorrente, in cui l'ambiente presenta regolarità ripetibili che consentono all'esperienza passata di informare le scelte future; (2) Memoria dell'Agente, che permette all'agente di conservare e utilizzare i dati storici delle interazioni; e (3) Assegnazione del Credito a Lungo Termine, in cui l'apprendimento propaga i rendimenti su un arco temporale sufficiente affinché i benefici ritardati dell'esplorazione possano influenzare le decisioni attuali. Attraverso esperimenti in bandit multi-armato stocastici e gridworld temporalmente estesi, osserviamo che, quando sono presenti sia la struttura che la memoria, una politica addestrata su un obiettivo strettamente avido mostra un comportamento esplorativo orientato alla ricerca di informazioni. Dimostriamo inoltre, attraverso ablazioni controllate, che l'esplorazione emergente scompare se manca la struttura ambientale o la memoria dell'agente (Condizioni 1 e 2). Sorprendentemente, la rimozione dell'assegnazione del credito a lungo termine (Condizione 3) non impedisce sempre l'esplorazione emergente, un risultato che attribuiamo all'effetto pseudo-Thompson Sampling. Questi risultati suggeriscono che, con i giusti prerequisiti, esplorazione e sfruttamento non devono essere trattati come obiettivi ortogonali, ma possono emergere da un processo unificato di massimizzazione della ricompensa.

English

Ensuring sufficient exploration is a central challenge when training meta-reinforcement learning (meta-RL) agents to solve novel environments. Conventional solutions to the exploration-exploitation dilemma inject explicit incentives such as randomization, uncertainty bonuses, or intrinsic rewards to encourage exploration. In this work, we hypothesize that an agent trained solely to maximize a greedy (exploitation-only) objective can nonetheless exhibit emergent exploratory behavior, provided three conditions are met: (1) Recurring Environmental Structure, where the environment features repeatable regularities that allow past experience to inform future choices; (2) Agent Memory, enabling the agent to retain and utilize historical interaction data; and (3) Long-Horizon Credit Assignment, where learning propagates returns over a time frame sufficient for the delayed benefits of exploration to inform current decisions. Through experiments in stochastic multi-armed bandits and temporally extended gridworlds, we observe that, when both structure and memory are present, a policy trained on a strictly greedy objective exhibits information-seeking exploratory behavior. We further demonstrate, through controlled ablations, that emergent exploration vanishes if either environmental structure or agent memory is absent (Conditions 1 & 2). Surprisingly, removing long-horizon credit assignment (Condition 3) does not always prevent emergent exploration-a result we attribute to the pseudo-Thompson Sampling effect. These findings suggest that, under the right prerequisites, exploration and exploitation need not be treated as orthogonal objectives but can emerge from a unified reward-maximization process.

Lo Sfruttamento È Tutto Ciò di Cui Hai Bisogno... per l'Esplorazione

Exploitation Is All You Need... for Exploration

Abstract

Support