VER : Vision Expert Transformer pour l'apprentissage robotique via la distillation de fondation et le routage dynamique
VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
October 6, 2025
papers.authors: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI
papers.abstract
Les modèles de fondation visuelle pré-entraînés (VFMs) font progresser l'apprentissage robotique grâce à des représentations visuelles riches, mais chaque VFM excelle généralement uniquement dans des domaines spécifiques, limitant ainsi leur généralité à travers différentes tâches. La distillation de plusieurs VFMs en une représentation unifiée pour la politique peut atténuer cette limitation, mais elle aboutit souvent à une sélection de caractéristiques rigide et spécifique à la tâche, nécessitant un ré-entraînement complet coûteux pour intégrer les connaissances du domaine robotique. Nous proposons VER, un transformateur d'experts visuels pour l'apprentissage robotique. Lors du pré-entraînement, VER distille plusieurs VFMs dans une bibliothèque d'experts visuels. Il affine ensuite uniquement un réseau de routage léger (moins de 0,4 % des paramètres) pour sélectionner dynamiquement les experts pertinents pour la tâche à partir de la bibliothèque pré-entraînée, en vue des tâches robotiques en aval. Nous introduisons également le Routage d'Experts par Patch avec un Recuit Top-K Progressif pour améliorer à la fois la flexibilité et la précision de la sélection dynamique d'experts. De plus, VER permet un affinage efficace des paramètres pour une utilisation scalable des experts et une intégration adaptative des connaissances du domaine robotique. Sur 17 tâches robotiques diverses et plusieurs têtes de politique, VER atteint des performances de pointe. Nous constatons que VER réduit les valeurs aberrantes de grande norme dans les régions non pertinentes pour la tâche (par exemple, l'arrière-plan) et se concentre sur les régions critiques pour la tâche. Les visualisations et les codes sont disponibles sur https://yixiaowang7.github.io/ver_page/.
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich
visual representations, yet individual VFMs typically excel only in specific
domains, limiting generality across tasks. Distilling multiple VFMs into a
unified representation for policy can mitigate this limitation but often yields
inflexible task-specific feature selection and requires costly full re-training
to incorporate robot-domain knowledge. We propose VER, a Vision Expert
transformer for Robot learning. During pretraining, VER distills multiple VFMs
into a vision expert library. It then fine-tunes only a lightweight routing
network (fewer than 0.4% of parameters) to dynamically select task-relevant
experts from the pretrained library for downstream robot tasks. We further
introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve
both flexibility and precision of dynamic expert selection. Moreover, VER
supports parameter-efficient finetuning for scalable expert utilization and
adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks
and multiple policy heads, VER achieves state-of-the-art performance. We find
that VER reduces large-norm outliers in task-irrelevant regions (e.g.,
background) and concentrates on task-critical regions. Visualizations and codes
can be found in https://yixiaowang7.github.io/ver_page/.