VER: 基盤モデルの蒸留と動的ルーティングによるロボット学習のための視覚専門家トランスフォーマー
VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
October 6, 2025
著者: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI
要旨
事前学習された視覚基盤モデル(VFMs)は、豊富な視覚表現を通じてロボット学習を進化させますが、個々のVFMは通常、特定の領域でのみ優れており、タスク間での汎用性が制限されています。複数のVFMをポリシーのための統一表現に蒸留することでこの制限を緩和できますが、しばしば柔軟性のないタスク固有の特徴選択をもたらし、ロボット領域の知識を組み込むためにコストのかかる完全な再学習を必要とします。我々は、ロボット学習のためのVision Expert Transformer(VER)を提案します。事前学習中に、VERは複数のVFMを視覚エキスパートライブラリに蒸留します。その後、軽量のルーティングネットワーク(パラメータの0.4%未満)のみを微調整し、事前学習されたライブラリからタスクに関連するエキスパートを動的に選択して下流のロボットタスクに適用します。さらに、動的エキスパート選択の柔軟性と精度を向上させるために、Patchwise Expert Routing with Curriculum Top-K Annealingを導入します。また、VERは、スケーラブルなエキスパート利用と適応的なロボット領域知識統合のためのパラメータ効率的な微調整をサポートします。17の多様なロボットタスクと複数のポリシーヘッドにわたって、VERは最先端の性能を達成します。VERは、タスクに関連しない領域(例:背景)での大きなノルムの外れ値を減少させ、タスクの重要な領域に集中することがわかります。視覚化とコードはhttps://yixiaowang7.github.io/ver_page/で見つけることができます。
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich
visual representations, yet individual VFMs typically excel only in specific
domains, limiting generality across tasks. Distilling multiple VFMs into a
unified representation for policy can mitigate this limitation but often yields
inflexible task-specific feature selection and requires costly full re-training
to incorporate robot-domain knowledge. We propose VER, a Vision Expert
transformer for Robot learning. During pretraining, VER distills multiple VFMs
into a vision expert library. It then fine-tunes only a lightweight routing
network (fewer than 0.4% of parameters) to dynamically select task-relevant
experts from the pretrained library for downstream robot tasks. We further
introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve
both flexibility and precision of dynamic expert selection. Moreover, VER
supports parameter-efficient finetuning for scalable expert utilization and
adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks
and multiple policy heads, VER achieves state-of-the-art performance. We find
that VER reduces large-norm outliers in task-irrelevant regions (e.g.,
background) and concentrates on task-critical regions. Visualizations and codes
can be found in https://yixiaowang7.github.io/ver_page/.