VER: Vision Expert Transformer voor Robotleren via Foundation Distillatie en Dynamisch Routeren

Samenvatting

Voorgetrainde visuele basis modellen (VFMs) bevorderen robotisch leren via rijke visuele representaties, maar individuele VFMs blinken doorgaans alleen uit in specifieke domeinen, wat de algemene toepasbaarheid over taken beperkt. Het destilleren van meerdere VFMs in een uniforme representatie voor beleid kan deze beperking verminderen, maar resulteert vaak in inflexibele, taakspecifieke feature selectie en vereist kostbare volledige hertraining om robot-domeinkennis te integreren. Wij stellen VER voor, een Vision Expert transformer voor Robotisch leren. Tijdens het vooraf trainen destilleert VER meerdere VFMs in een visuele expertbibliotheek. Vervolgens wordt alleen een lichtgewicht routeringsnetwerk (minder dan 0,4% van de parameters) gefinetuned om dynamisch taakrelevante experts te selecteren uit de vooraf getrainde bibliotheek voor downstream robot taken. We introduceren verder Patchwise Expert Routing met Curriculum Top-K Annealing om zowel de flexibiliteit als de precisie van dynamische expertselectie te verbeteren. Bovendien ondersteunt VER parameter-efficiënt finetunen voor schaalbare expertbenutting en adaptieve integratie van robot-domeinkennis. Over 17 diverse robot taken en meerdere beleidskoppen behaalt VER state-of-the-art prestaties. We ontdekken dat VER grote-norm uitbijters in taakirrelevante regio's (bijv. achtergrond) vermindert en zich concentreert op taakkritische regio's. Visualisaties en codes zijn te vinden op https://yixiaowang7.github.io/ver_page/.

English

Pretrained vision foundation models (VFMs) advance robotic learning via rich visual representations, yet individual VFMs typically excel only in specific domains, limiting generality across tasks. Distilling multiple VFMs into a unified representation for policy can mitigate this limitation but often yields inflexible task-specific feature selection and requires costly full re-training to incorporate robot-domain knowledge. We propose VER, a Vision Expert transformer for Robot learning. During pretraining, VER distills multiple VFMs into a vision expert library. It then fine-tunes only a lightweight routing network (fewer than 0.4% of parameters) to dynamically select task-relevant experts from the pretrained library for downstream robot tasks. We further introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve both flexibility and precision of dynamic expert selection. Moreover, VER supports parameter-efficient finetuning for scalable expert utilization and adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks and multiple policy heads, VER achieves state-of-the-art performance. We find that VER reduces large-norm outliers in task-irrelevant regions (e.g., background) and concentrates on task-critical regions. Visualizations and codes can be found in https://yixiaowang7.github.io/ver_page/.

VER: Vision Expert Transformer voor Robotleren via Foundation Distillatie en Dynamisch Routeren

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Samenvatting

Support