ChatPaper.aiChatPaper

Premier-TACO: Pré-treinamento de Representação Multitarefa por meio de Perda Contrastiva Orientada por Ação Temporal

Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

February 9, 2024
Autores: Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang
cs.AI

Resumo

Apresentamos o Premier-TACO, uma abordagem de aprendizado de representação de características multitarefa projetada para melhorar a eficiência do aprendizado de políticas com poucos exemplos em tarefas de tomada de decisão sequencial. O Premier-TACO utiliza um subconjunto de conjuntos de dados offline multitarefa para pré-treinar uma representação de características geral, que captura dinâmicas ambientais críticas e é ajustada com o uso de demonstrações especializadas mínimas. Ele avança o objetivo de aprendizado contrastivo de ação temporal (TACO), conhecido por resultados de ponta em tarefas de controle visual, ao incorporar uma nova estratégia de amostragem de exemplos negativos. Essa estratégia é crucial para aumentar significativamente a eficiência computacional do TACO, tornando viável o pré-treinamento offline em larga escala e multitarefa. Nossa extensa avaliação empírica em um conjunto diversificado de benchmarks de controle contínuo, incluindo o Deepmind Control Suite, MetaWorld e LIBERO, demonstra a eficácia do Premier-TACO no pré-treinamento de representações visuais, melhorando significativamente o aprendizado de imitação com poucos exemplos em novas tarefas. Nosso código, dados de pré-treinamento, bem como checkpoints de modelos pré-treinados, serão disponibilizados em https://github.com/PremierTACO/premier-taco.
English
We present Premier-TACO, a multitask feature representation learning approach designed to improve few-shot policy learning efficiency in sequential decision-making tasks. Premier-TACO leverages a subset of multitask offline datasets for pretraining a general feature representation, which captures critical environmental dynamics and is fine-tuned using minimal expert demonstrations. It advances the temporal action contrastive learning (TACO) objective, known for state-of-the-art results in visual control tasks, by incorporating a novel negative example sampling strategy. This strategy is crucial in significantly boosting TACO's computational efficiency, making large-scale multitask offline pretraining feasible. Our extensive empirical evaluation in a diverse set of continuous control benchmarks including Deepmind Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness in pretraining visual representations, significantly enhancing few-shot imitation learning of novel tasks. Our code, pretraining data, as well as pretrained model checkpoints will be released at https://github.com/PremierTACO/premier-taco.
PDF112December 15, 2024