Premier-TACO: 時間的行動駆動型コントラスト損失によるマルチタスク表現の事前学習
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss
February 9, 2024
著者: Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang
cs.AI
要旨
本論文では、逐次意思決定タスクにおけるfew-shot方策学習の効率性を向上させるためのマルチタスク特徴表現学習手法「Premier-TACO」を提案します。Premier-TACOは、マルチタスクオフラインデータセットのサブセットを活用して、重要な環境ダイナミクスを捉える汎用的な特徴表現を事前学習し、最小限の専門家デモンストレーションを用いて微調整します。本手法は、視覚制御タスクにおいて最先端の結果を達成することで知られる時間的行動対比学習(TACO)の目的関数を発展させ、新たなネガティブサンプリング戦略を組み込んでいます。この戦略は、TACOの計算効率を大幅に向上させる上で重要であり、大規模なマルチタスクオフライン事前学習を実現可能にします。Deepmind Control Suite、MetaWorld、LIBEROを含む多様な連続制御ベンチマークにおける広範な実証評価を通じて、Premier-TACOが視覚表現の事前学習において有効であり、新規タスクのfew-shot模倣学習を大幅に向上させることを示します。本手法のコード、事前学習データ、および事前学習済みモデルのチェックポイントは、https://github.com/PremierTACO/premier-taco で公開予定です。
English
We present Premier-TACO, a multitask feature representation learning approach
designed to improve few-shot policy learning efficiency in sequential
decision-making tasks. Premier-TACO leverages a subset of multitask offline
datasets for pretraining a general feature representation, which captures
critical environmental dynamics and is fine-tuned using minimal expert
demonstrations. It advances the temporal action contrastive learning (TACO)
objective, known for state-of-the-art results in visual control tasks, by
incorporating a novel negative example sampling strategy. This strategy is
crucial in significantly boosting TACO's computational efficiency, making
large-scale multitask offline pretraining feasible. Our extensive empirical
evaluation in a diverse set of continuous control benchmarks including Deepmind
Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness
in pretraining visual representations, significantly enhancing few-shot
imitation learning of novel tasks. Our code, pretraining data, as well as
pretrained model checkpoints will be released at
https://github.com/PremierTACO/premier-taco.