Premier-TACO: Pré-treinamento de Representação Multitarefa por meio de Perda Contrastiva Orientada por Ação Temporal
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss
February 9, 2024
Autores: Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang
cs.AI
Resumo
Apresentamos o Premier-TACO, uma abordagem de aprendizado de representação de características multitarefa projetada para melhorar a eficiência do aprendizado de políticas com poucos exemplos em tarefas de tomada de decisão sequencial. O Premier-TACO utiliza um subconjunto de conjuntos de dados offline multitarefa para pré-treinar uma representação de características geral, que captura dinâmicas ambientais críticas e é ajustada com o uso de demonstrações especializadas mínimas. Ele avança o objetivo de aprendizado contrastivo de ação temporal (TACO), conhecido por resultados de ponta em tarefas de controle visual, ao incorporar uma nova estratégia de amostragem de exemplos negativos. Essa estratégia é crucial para aumentar significativamente a eficiência computacional do TACO, tornando viável o pré-treinamento offline em larga escala e multitarefa. Nossa extensa avaliação empírica em um conjunto diversificado de benchmarks de controle contínuo, incluindo o Deepmind Control Suite, MetaWorld e LIBERO, demonstra a eficácia do Premier-TACO no pré-treinamento de representações visuais, melhorando significativamente o aprendizado de imitação com poucos exemplos em novas tarefas. Nosso código, dados de pré-treinamento, bem como checkpoints de modelos pré-treinados, serão disponibilizados em https://github.com/PremierTACO/premier-taco.
English
We present Premier-TACO, a multitask feature representation learning approach
designed to improve few-shot policy learning efficiency in sequential
decision-making tasks. Premier-TACO leverages a subset of multitask offline
datasets for pretraining a general feature representation, which captures
critical environmental dynamics and is fine-tuned using minimal expert
demonstrations. It advances the temporal action contrastive learning (TACO)
objective, known for state-of-the-art results in visual control tasks, by
incorporating a novel negative example sampling strategy. This strategy is
crucial in significantly boosting TACO's computational efficiency, making
large-scale multitask offline pretraining feasible. Our extensive empirical
evaluation in a diverse set of continuous control benchmarks including Deepmind
Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness
in pretraining visual representations, significantly enhancing few-shot
imitation learning of novel tasks. Our code, pretraining data, as well as
pretrained model checkpoints will be released at
https://github.com/PremierTACO/premier-taco.