탐색을 위한 모든 것은 착취뿐...
Exploitation Is All You Need... for Exploration
August 2, 2025
저자: Micah Rentschler, Jesse Roberts
cs.AI
초록
새로운 환경을 해결하기 위해 메타 강화 학습(meta-RL) 에이전트를 훈련할 때 충분한 탐색을 보장하는 것은 핵심적인 과제입니다. 탐색-활용 딜레마에 대한 기존의 해결책은 탐색을 촉진하기 위해 무작위화, 불확실성 보너스 또는 내재적 보상과 같은 명시적 인센티브를 주입하는 것입니다. 본 연구에서는 탐욕적(활용만을 목표로 하는) 목적만을 최대화하도록 훈련된 에이전트가 세 가지 조건이 충족될 경우 탐색적 행동을 자연스럽게 나타낼 수 있다는 가설을 세웁니다: (1) 반복되는 환경 구조, 즉 환경이 과거 경험이 미래 선택에 영향을 미칠 수 있는 반복 가능한 규칙성을 갖추고 있을 때; (2) 에이전트 메모리, 즉 에이전트가 역사적 상호작용 데이터를 유지하고 활용할 수 있을 때; (3) 장기간 신용 할당, 즉 학습이 탐색의 지연된 이익이 현재 결정에 영향을 미칠 수 있을 만큼 충분한 시간 범위에 걸쳐 반환값을 전파할 때. 확률적 다중 팔 도박 문제와 시간적으로 확장된 그리드월드에서의 실험을 통해, 구조와 메모리가 모두 존재할 때 탐욕적 목적만으로 훈련된 정책이 정보를 찾는 탐색적 행동을 나타냄을 관찰했습니다. 또한, 통제된 제거 실험을 통해 환경 구조나 에이전트 메모리가 없을 경우(조건 1 & 2) 자연스럽게 발생하는 탐색이 사라짐을 입증했습니다. 놀랍게도, 장기간 신용 할당을 제거하더라도(조건 3) 항상 탐색이 사라지는 것은 아니었는데, 이는 유사 톰슨 샘플링 효과로 설명할 수 있습니다. 이러한 결과는 적절한 전제 조건 하에서 탐색과 활용이 서로 직교하는 목표로 취급될 필요 없이 통합된 보상 최대화 과정에서 자연스럽게 발생할 수 있음을 시사합니다.
English
Ensuring sufficient exploration is a central challenge when training
meta-reinforcement learning (meta-RL) agents to solve novel environments.
Conventional solutions to the exploration-exploitation dilemma inject explicit
incentives such as randomization, uncertainty bonuses, or intrinsic rewards to
encourage exploration. In this work, we hypothesize that an agent trained
solely to maximize a greedy (exploitation-only) objective can nonetheless
exhibit emergent exploratory behavior, provided three conditions are met: (1)
Recurring Environmental Structure, where the environment features repeatable
regularities that allow past experience to inform future choices; (2) Agent
Memory, enabling the agent to retain and utilize historical interaction data;
and (3) Long-Horizon Credit Assignment, where learning propagates returns over
a time frame sufficient for the delayed benefits of exploration to inform
current decisions. Through experiments in stochastic multi-armed bandits and
temporally extended gridworlds, we observe that, when both structure and memory
are present, a policy trained on a strictly greedy objective exhibits
information-seeking exploratory behavior. We further demonstrate, through
controlled ablations, that emergent exploration vanishes if either
environmental structure or agent memory is absent (Conditions 1 & 2).
Surprisingly, removing long-horizon credit assignment (Condition 3) does not
always prevent emergent exploration-a result we attribute to the
pseudo-Thompson Sampling effect. These findings suggest that, under the right
prerequisites, exploration and exploitation need not be treated as orthogonal
objectives but can emerge from a unified reward-maximization process.