Эксплуатация — это всё, что нужно... для исследования.
Exploitation Is All You Need... for Exploration
August 2, 2025
Авторы: Micah Rentschler, Jesse Roberts
cs.AI
Аннотация
Обеспечение достаточного исследования является ключевой задачей при обучении мета-агентов с подкреплением (meta-RL) для решения новых сред. Традиционные подходы к дилемме исследования-эксплуатации включают явные стимулы, такие как рандомизация, бонусы за неопределенность или внутренние вознаграждения, чтобы стимулировать исследование. В данной работе мы выдвигаем гипотезу, что агент, обученный исключительно для максимизации жадного (ориентированного только на эксплуатацию) целевого показателя, тем не менее может демонстрировать возникающее исследовательское поведение при соблюдении трех условий: (1) Повторяющаяся структура среды, где среда обладает повторяемыми закономерностями, позволяющими использовать прошлый опыт для принятия будущих решений; (2) Память агента, позволяющая агенту сохранять и использовать данные о прошлых взаимодействиях; и (3) Долгосрочное распределение заслуг, где обучение распространяет вознаграждения на временной горизонт, достаточный для того, чтобы отложенные выгоды исследования влияли на текущие решения. В экспериментах со стохастическими многорукими бандитами и протяженными во времени сеточными мирами мы наблюдаем, что при наличии как структуры, так и памяти политика, обученная на строго жадном целевом показателе, демонстрирует информационно-ориентированное исследовательское поведение. Мы также показываем с помощью контролируемых абляций, что возникающее исследование исчезает, если отсутствует либо структура среды, либо память агента (Условия 1 и 2). Удивительно, что удаление долгосрочного распределения заслуг (Условие 3) не всегда предотвращает возникающее исследование — результат, который мы связываем с эффектом псевдо-Томпсоновского сэмплирования. Эти результаты свидетельствуют о том, что при соблюдении определенных предпосылок исследование и эксплуатация не обязательно должны рассматриваться как ортогональные цели, а могут возникать из единого процесса максимизации вознаграждения.
English
Ensuring sufficient exploration is a central challenge when training
meta-reinforcement learning (meta-RL) agents to solve novel environments.
Conventional solutions to the exploration-exploitation dilemma inject explicit
incentives such as randomization, uncertainty bonuses, or intrinsic rewards to
encourage exploration. In this work, we hypothesize that an agent trained
solely to maximize a greedy (exploitation-only) objective can nonetheless
exhibit emergent exploratory behavior, provided three conditions are met: (1)
Recurring Environmental Structure, where the environment features repeatable
regularities that allow past experience to inform future choices; (2) Agent
Memory, enabling the agent to retain and utilize historical interaction data;
and (3) Long-Horizon Credit Assignment, where learning propagates returns over
a time frame sufficient for the delayed benefits of exploration to inform
current decisions. Through experiments in stochastic multi-armed bandits and
temporally extended gridworlds, we observe that, when both structure and memory
are present, a policy trained on a strictly greedy objective exhibits
information-seeking exploratory behavior. We further demonstrate, through
controlled ablations, that emergent exploration vanishes if either
environmental structure or agent memory is absent (Conditions 1 & 2).
Surprisingly, removing long-horizon credit assignment (Condition 3) does not
always prevent emergent exploration-a result we attribute to the
pseudo-Thompson Sampling effect. These findings suggest that, under the right
prerequisites, exploration and exploitation need not be treated as orthogonal
objectives but can emerge from a unified reward-maximization process.