Transformador de Decisión Elástica
Elastic Decision Transformer
July 5, 2023
Autores: Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya
cs.AI
Resumen
Este artículo presenta el Transformador de Decisión Elástica (EDT, por sus siglas en inglés), un avance significativo sobre el Transformador de Decisión (DT) existente y sus variantes. Aunque el DT pretende generar una trayectoria óptima, la evidencia empírica sugiere que tiene dificultades con la unión de trayectorias, un proceso que implica la generación de una trayectoria óptima o casi óptima a partir de las mejores partes de un conjunto de trayectorias subóptimas. El EDT propuesto se distingue al facilitar la unión de trayectorias durante la inferencia de acciones en el momento de prueba, logrado mediante el ajuste de la longitud del historial mantenido en el DT. Además, el EDT optimiza la trayectoria al conservar un historial más largo cuando la trayectoria previa es óptima y uno más corto cuando es subóptima, lo que le permite "unirse" con una trayectoria más óptima. Experimentos extensivos demuestran la capacidad del EDT para cerrar la brecha de rendimiento entre los enfoques basados en DT y los basados en Aprendizaje Q. En particular, el EDT supera a los métodos basados en Aprendizaje Q en un régimen de múltiples tareas en el benchmark de locomoción D4RL y en los juegos de Atari. Los videos están disponibles en: https://kristery.github.io/edt/.
English
This paper introduces Elastic Decision Transformer (EDT), a significant
advancement over the existing Decision Transformer (DT) and its variants.
Although DT purports to generate an optimal trajectory, empirical evidence
suggests it struggles with trajectory stitching, a process involving the
generation of an optimal or near-optimal trajectory from the best parts of a
set of sub-optimal trajectories. The proposed EDT differentiates itself by
facilitating trajectory stitching during action inference at test time,
achieved by adjusting the history length maintained in DT. Further, the EDT
optimizes the trajectory by retaining a longer history when the previous
trajectory is optimal and a shorter one when it is sub-optimal, enabling it to
"stitch" with a more optimal trajectory. Extensive experimentation demonstrates
EDT's ability to bridge the performance gap between DT-based and Q
Learning-based approaches. In particular, the EDT outperforms Q Learning-based
methods in a multi-task regime on the D4RL locomotion benchmark and Atari
games. Videos are available at: https://kristery.github.io/edt/