Elastische Besluitstransformator

Samenvatting

Dit artikel introduceert de Elastic Decision Transformer (EDT), een belangrijke vooruitgang ten opzichte van de bestaande Decision Transformer (DT) en zijn varianten. Hoewel DT beweert een optimale trajectorie te genereren, suggereert empirisch bewijs dat het moeite heeft met trajectoriestitching, een proces waarbij een optimale of bijna-optimale trajectorie wordt gegenereerd uit de beste delen van een reeks suboptimale trajectorieën. De voorgestelde EDT onderscheidt zich door trajectoriestitching mogelijk te maken tijdens actie-inferentie op testmomenten, wat wordt bereikt door de historielengte die in DT wordt aangehouden aan te passen. Bovendien optimaliseert de EDT de trajectorie door een langere historie te behouden wanneer de vorige trajectorie optimaal is en een kortere wanneer deze suboptimaal is, waardoor het mogelijk wordt om te "stitchen" met een meer optimale trajectorie. Uitgebreide experimenten tonen aan dat de EDT in staat is de prestatiekloof tussen DT-gebaseerde en Q Learning-gebaseerde benaderingen te overbruggen. In het bijzonder presteert de EDT beter dan Q Learning-gebaseerde methoden in een multi-taskregime op de D4RL-locomotiebenchmark en Atari-spellen. Video's zijn beschikbaar op: https://kristery.github.io/edt/

English

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/