Elastische Besluitstransformator
Elastic Decision Transformer
July 5, 2023
Auteurs: Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya
cs.AI
Samenvatting
Dit artikel introduceert de Elastic Decision Transformer (EDT), een belangrijke vooruitgang ten opzichte van de bestaande Decision Transformer (DT) en zijn varianten. Hoewel DT beweert een optimale trajectorie te genereren, suggereert empirisch bewijs dat het moeite heeft met trajectoriestitching, een proces waarbij een optimale of bijna-optimale trajectorie wordt gegenereerd uit de beste delen van een reeks suboptimale trajectorieën. De voorgestelde EDT onderscheidt zich door trajectoriestitching mogelijk te maken tijdens actie-inferentie op testmomenten, wat wordt bereikt door de historielengte die in DT wordt aangehouden aan te passen. Bovendien optimaliseert de EDT de trajectorie door een langere historie te behouden wanneer de vorige trajectorie optimaal is en een kortere wanneer deze suboptimaal is, waardoor het mogelijk wordt om te "stitchen" met een meer optimale trajectorie. Uitgebreide experimenten tonen aan dat de EDT in staat is de prestatiekloof tussen DT-gebaseerde en Q Learning-gebaseerde benaderingen te overbruggen. In het bijzonder presteert de EDT beter dan Q Learning-gebaseerde methoden in een multi-taskregime op de D4RL-locomotiebenchmark en Atari-spellen. Video's zijn beschikbaar op: https://kristery.github.io/edt/
English
This paper introduces Elastic Decision Transformer (EDT), a significant
advancement over the existing Decision Transformer (DT) and its variants.
Although DT purports to generate an optimal trajectory, empirical evidence
suggests it struggles with trajectory stitching, a process involving the
generation of an optimal or near-optimal trajectory from the best parts of a
set of sub-optimal trajectories. The proposed EDT differentiates itself by
facilitating trajectory stitching during action inference at test time,
achieved by adjusting the history length maintained in DT. Further, the EDT
optimizes the trajectory by retaining a longer history when the previous
trajectory is optimal and a shorter one when it is sub-optimal, enabling it to
"stitch" with a more optimal trajectory. Extensive experimentation demonstrates
EDT's ability to bridge the performance gap between DT-based and Q
Learning-based approaches. In particular, the EDT outperforms Q Learning-based
methods in a multi-task regime on the D4RL locomotion benchmark and Atari
games. Videos are available at: https://kristery.github.io/edt/