Transformador de Decisión Elástica

Resumen

Este artículo presenta el Transformador de Decisión Elástica (EDT, por sus siglas en inglés), un avance significativo sobre el Transformador de Decisión (DT) existente y sus variantes. Aunque el DT pretende generar una trayectoria óptima, la evidencia empírica sugiere que tiene dificultades con la unión de trayectorias, un proceso que implica la generación de una trayectoria óptima o casi óptima a partir de las mejores partes de un conjunto de trayectorias subóptimas. El EDT propuesto se distingue al facilitar la unión de trayectorias durante la inferencia de acciones en el momento de prueba, logrado mediante el ajuste de la longitud del historial mantenido en el DT. Además, el EDT optimiza la trayectoria al conservar un historial más largo cuando la trayectoria previa es óptima y uno más corto cuando es subóptima, lo que le permite "unirse" con una trayectoria más óptima. Experimentos extensivos demuestran la capacidad del EDT para cerrar la brecha de rendimiento entre los enfoques basados en DT y los basados en Aprendizaje Q. En particular, el EDT supera a los métodos basados en Aprendizaje Q en un régimen de múltiples tareas en el benchmark de locomoción D4RL y en los juegos de Atari. Los videos están disponibles en: https://kristery.github.io/edt/.

English

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/