Transformador de Decisão Elástica
Elastic Decision Transformer
July 5, 2023
Autores: Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya
cs.AI
Resumo
Este artigo apresenta o Elastic Decision Transformer (EDT), um avanço significativo em relação ao Decision Transformer (DT) existente e suas variantes. Embora o DT afirme gerar uma trajetória ótima, evidências empíricas sugerem que ele enfrenta dificuldades com a costura de trajetórias, um processo que envolve a geração de uma trajetória ótima ou quase ótima a partir das melhores partes de um conjunto de trajetórias sub-ótimas. O EDT proposto se diferencia ao facilitar a costura de trajetórias durante a inferência de ações no momento do teste, alcançado por meio do ajuste do comprimento do histórico mantido no DT. Além disso, o EDT otimiza a trajetória ao manter um histórico mais longo quando a trajetória anterior é ótima e um mais curto quando é sub-ótima, permitindo que ele "costure" com uma trajetória mais ótima. Experimentos extensivos demonstram a capacidade do EDT de reduzir a lacuna de desempenho entre abordagens baseadas em DT e em Q-Learning. Em particular, o EDT supera métodos baseados em Q-Learning em um regime de múltiplas tarefas no benchmark de locomoção D4RL e em jogos do Atari. Vídeos estão disponíveis em: https://kristery.github.io/edt/
English
This paper introduces Elastic Decision Transformer (EDT), a significant
advancement over the existing Decision Transformer (DT) and its variants.
Although DT purports to generate an optimal trajectory, empirical evidence
suggests it struggles with trajectory stitching, a process involving the
generation of an optimal or near-optimal trajectory from the best parts of a
set of sub-optimal trajectories. The proposed EDT differentiates itself by
facilitating trajectory stitching during action inference at test time,
achieved by adjusting the history length maintained in DT. Further, the EDT
optimizes the trajectory by retaining a longer history when the previous
trajectory is optimal and a shorter one when it is sub-optimal, enabling it to
"stitch" with a more optimal trajectory. Extensive experimentation demonstrates
EDT's ability to bridge the performance gap between DT-based and Q
Learning-based approaches. In particular, the EDT outperforms Q Learning-based
methods in a multi-task regime on the D4RL locomotion benchmark and Atari
games. Videos are available at: https://kristery.github.io/edt/