Transformateur de Décision Élastique

Résumé

Cet article présente l'Elastic Decision Transformer (EDT), une avancée significative par rapport au Decision Transformer (DT) existant et à ses variantes. Bien que le DT prétende générer une trajectoire optimale, des preuves empiriques suggèrent qu'il éprouve des difficultés avec le "trajectory stitching", un processus consistant à générer une trajectoire optimale ou quasi-optimale à partir des meilleures parties d'un ensemble de trajectoires sous-optimales. Le EDT proposé se distingue en facilitant le "trajectory stitching" lors de l'inférence d'actions au moment du test, grâce à l'ajustement de la longueur de l'historique maintenu dans le DT. De plus, le EDT optimise la trajectoire en conservant un historique plus long lorsque la trajectoire précédente est optimale et un historique plus court lorsqu'elle est sous-optimale, lui permettant ainsi de "recoudre" avec une trajectoire plus optimale. Des expérimentations approfondies démontrent la capacité de l'EDT à combler l'écart de performance entre les approches basées sur le DT et celles basées sur l'apprentissage Q. En particulier, l'EDT surpasse les méthodes basées sur l'apprentissage Q dans un régime multi-tâches sur le benchmark de locomotion D4RL et les jeux Atari. Des vidéos sont disponibles à l'adresse suivante : https://kristery.github.io/edt/

English

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/