Transformador de Decisão Elástica

Resumo

Este artigo apresenta o Elastic Decision Transformer (EDT), um avanço significativo em relação ao Decision Transformer (DT) existente e suas variantes. Embora o DT afirme gerar uma trajetória ótima, evidências empíricas sugerem que ele enfrenta dificuldades com a costura de trajetórias, um processo que envolve a geração de uma trajetória ótima ou quase ótima a partir das melhores partes de um conjunto de trajetórias sub-ótimas. O EDT proposto se diferencia ao facilitar a costura de trajetórias durante a inferência de ações no momento do teste, alcançado por meio do ajuste do comprimento do histórico mantido no DT. Além disso, o EDT otimiza a trajetória ao manter um histórico mais longo quando a trajetória anterior é ótima e um mais curto quando é sub-ótima, permitindo que ele "costure" com uma trajetória mais ótima. Experimentos extensivos demonstram a capacidade do EDT de reduzir a lacuna de desempenho entre abordagens baseadas em DT e em Q-Learning. Em particular, o EDT supera métodos baseados em Q-Learning em um regime de múltiplas tarefas no benchmark de locomoção D4RL e em jogos do Atari. Vídeos estão disponíveis em: https://kristery.github.io/edt/

English

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/