VER: Vision Expert Transformer voor Robotleren via Foundation Distillatie en Dynamisch Routeren
VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
October 6, 2025
Auteurs: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI
Samenvatting
Voorgetrainde visuele basis modellen (VFMs) bevorderen robotisch leren via rijke visuele representaties, maar individuele VFMs blinken doorgaans alleen uit in specifieke domeinen, wat de algemene toepasbaarheid over taken beperkt. Het destilleren van meerdere VFMs in een uniforme representatie voor beleid kan deze beperking verminderen, maar resulteert vaak in inflexibele, taakspecifieke feature selectie en vereist kostbare volledige hertraining om robot-domeinkennis te integreren. Wij stellen VER voor, een Vision Expert transformer voor Robotisch leren. Tijdens het vooraf trainen destilleert VER meerdere VFMs in een visuele expertbibliotheek. Vervolgens wordt alleen een lichtgewicht routeringsnetwerk (minder dan 0,4% van de parameters) gefinetuned om dynamisch taakrelevante experts te selecteren uit de vooraf getrainde bibliotheek voor downstream robot taken. We introduceren verder Patchwise Expert Routing met Curriculum Top-K Annealing om zowel de flexibiliteit als de precisie van dynamische expertselectie te verbeteren. Bovendien ondersteunt VER parameter-efficiënt finetunen voor schaalbare expertbenutting en adaptieve integratie van robot-domeinkennis. Over 17 diverse robot taken en meerdere beleidskoppen behaalt VER state-of-the-art prestaties. We ontdekken dat VER grote-norm uitbijters in taakirrelevante regio's (bijv. achtergrond) vermindert en zich concentreert op taakkritische regio's. Visualisaties en codes zijn te vinden op https://yixiaowang7.github.io/ver_page/.
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich
visual representations, yet individual VFMs typically excel only in specific
domains, limiting generality across tasks. Distilling multiple VFMs into a
unified representation for policy can mitigate this limitation but often yields
inflexible task-specific feature selection and requires costly full re-training
to incorporate robot-domain knowledge. We propose VER, a Vision Expert
transformer for Robot learning. During pretraining, VER distills multiple VFMs
into a vision expert library. It then fine-tunes only a lightweight routing
network (fewer than 0.4% of parameters) to dynamically select task-relevant
experts from the pretrained library for downstream robot tasks. We further
introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve
both flexibility and precision of dynamic expert selection. Moreover, VER
supports parameter-efficient finetuning for scalable expert utilization and
adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks
and multiple policy heads, VER achieves state-of-the-art performance. We find
that VER reduces large-norm outliers in task-irrelevant regions (e.g.,
background) and concentrates on task-critical regions. Visualizations and codes
can be found in https://yixiaowang7.github.io/ver_page/.