Premier-TACO: Pre-addestramento della Rappresentazione Multitask tramite Perdita Contrastiva Guidata da Azioni Temporali
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss
February 9, 2024
Autori: Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang
cs.AI
Abstract
Presentiamo Premier-TACO, un approccio di apprendimento della rappresentazione delle caratteristiche multitask progettato per migliorare l'efficienza dell'apprendimento di politiche con pochi esempi in compiti di decisione sequenziale. Premier-TACO sfrutta un sottoinsieme di dataset offline multitask per il pre-addestramento di una rappresentazione generale delle caratteristiche, che cattura le dinamiche ambientali critiche e viene affinata utilizzando un numero minimo di dimostrazioni esperte. Questo metodo avanza l'obiettivo del Temporal Action Contrastive Learning (TACO), noto per i risultati all'avanguardia nei compiti di controllo visivo, incorporando una nuova strategia di campionamento di esempi negativi. Tale strategia è cruciale per aumentare significativamente l'efficienza computazionale di TACO, rendendo fattibile il pre-addestramento offline su larga scala multitask. La nostra ampia valutazione empirica in un insieme diversificato di benchmark di controllo continuo, tra cui Deepmind Control Suite, MetaWorld e LIBERO, dimostra l'efficacia di Premier-TACO nel pre-addestramento delle rappresentazioni visive, migliorando significativamente l'apprendimento per imitazione con pochi esempi di nuovi compiti. Il nostro codice, i dati di pre-addestramento e i checkpoint dei modelli pre-addestrati saranno rilasciati su https://github.com/PremierTACO/premier-taco.
English
We present Premier-TACO, a multitask feature representation learning approach
designed to improve few-shot policy learning efficiency in sequential
decision-making tasks. Premier-TACO leverages a subset of multitask offline
datasets for pretraining a general feature representation, which captures
critical environmental dynamics and is fine-tuned using minimal expert
demonstrations. It advances the temporal action contrastive learning (TACO)
objective, known for state-of-the-art results in visual control tasks, by
incorporating a novel negative example sampling strategy. This strategy is
crucial in significantly boosting TACO's computational efficiency, making
large-scale multitask offline pretraining feasible. Our extensive empirical
evaluation in a diverse set of continuous control benchmarks including Deepmind
Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness
in pretraining visual representations, significantly enhancing few-shot
imitation learning of novel tasks. Our code, pretraining data, as well as
pretrained model checkpoints will be released at
https://github.com/PremierTACO/premier-taco.