Elastischer Entscheidungstransformator

Zusammenfassung

Dieses Papier stellt den Elastic Decision Transformer (EDT) vor, eine bedeutende Weiterentwicklung gegenüber dem bestehenden Decision Transformer (DT) und seinen Varianten. Obwohl der DT vorgibt, eine optimale Trajektorie zu generieren, deuten empirische Belege darauf hin, dass er Schwierigkeiten mit dem sogenannten Trajectory Stitching hat, einem Prozess, bei dem eine optimale oder nahezu optimale Trajektorie aus den besten Teilen einer Reihe von suboptimalen Trajektorien erzeugt wird. Der vorgeschlagene EDT unterscheidet sich dadurch, dass er das Trajectory Stitching während der Aktionsinferenz zur Testzeit erleichtert, indem er die im DT beibehaltene Historiendauer anpasst. Darüber hinaus optimiert der EDT die Trajektorie, indem er eine längere Historie beibehält, wenn die vorherige Trajektorie optimal ist, und eine kürzere, wenn sie suboptimal ist, wodurch er sich mit einer optimaleren Trajektorie „verknüpfen“ kann. Umfangreiche Experimente demonstrieren die Fähigkeit des EDT, die Leistungslücke zwischen DT-basierten und Q-Learning-basierten Ansätzen zu schließen. Insbesondere übertrifft der EDT Q-Learning-basierte Methoden in einem Multitask-Regime auf dem D4RL-Locomotion-Benchmark und bei Atari-Spielen. Videos sind verfügbar unter: https://kristery.github.io/edt/

English

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/