Premier-TACO: Предобучение многозадачных представлений с помощью контрастной функции потерь, управляемой временными действиями
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss
February 9, 2024
Авторы: Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang
cs.AI
Аннотация
Мы представляем Premier-TACO, подход к обучению многозадачных представлений признаков, разработанный для повышения эффективности обучения стратегий с малым количеством примеров в задачах последовательного принятия решений. Premier-TACO использует подмножество многозадачных оффлайн-наборов данных для предварительного обучения общего представления признаков, которое фиксирует ключевые динамические характеристики среды и дорабатывается с использованием минимального количества экспертных демонстраций. Этот подход развивает цель временного контрастивного обучения действий (TACO), известную своими передовыми результатами в задачах визуального управления, за счет включения новой стратегии выборки отрицательных примеров. Эта стратегия играет ключевую роль в значительном повышении вычислительной эффективности TACO, делая крупномасштабное многозадачное оффлайн-предобучение осуществимым. Наши обширные эмпирические оценки на разнообразных наборах задач непрерывного управления, включая Deepmind Control Suite, MetaWorld и LIBERO, демонстрируют эффективность Premier-TACO в предобучении визуальных представлений, значительно улучшая обучение с малым количеством примеров для новых задач. Наш код, данные для предобучения, а также контрольные точки предобученных моделей будут доступны по адресу https://github.com/PremierTACO/premier-taco.
English
We present Premier-TACO, a multitask feature representation learning approach
designed to improve few-shot policy learning efficiency in sequential
decision-making tasks. Premier-TACO leverages a subset of multitask offline
datasets for pretraining a general feature representation, which captures
critical environmental dynamics and is fine-tuned using minimal expert
demonstrations. It advances the temporal action contrastive learning (TACO)
objective, known for state-of-the-art results in visual control tasks, by
incorporating a novel negative example sampling strategy. This strategy is
crucial in significantly boosting TACO's computational efficiency, making
large-scale multitask offline pretraining feasible. Our extensive empirical
evaluation in a diverse set of continuous control benchmarks including Deepmind
Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness
in pretraining visual representations, significantly enhancing few-shot
imitation learning of novel tasks. Our code, pretraining data, as well as
pretrained model checkpoints will be released at
https://github.com/PremierTACO/premier-taco.