VER: Vision Expert Transformer für Robotik-Lernen durch Foundation-Distillation und dynamisches Routing
VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
October 6, 2025
papers.authors: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI
papers.abstract
Vortrainierte visuelle Basismodelle (VFMs) fördern das robotische Lernen durch umfangreiche visuelle Repräsentationen, doch einzelne VFMs zeichnen sich typischerweise nur in spezifischen Domänen aus, was die Allgemeingültigkeit über verschiedene Aufgaben hinweg einschränkt. Die Destillation mehrerer VFMs in eine einheitliche Repräsentation für die Politik kann diese Einschränkung mildern, führt jedoch oft zu unflexibler, aufgabenbezogener Merkmalsauswahl und erfordert kostspieliges vollständiges Neu-Training, um roboterspezifisches Wissen zu integrieren. Wir schlagen VER, einen Vision-Expert-Transformer für das robotische Lernen, vor. Während des Vortrainings destilliert VER mehrere VFMs in eine Vision-Expert-Bibliothek. Anschließend wird nur ein leichtgewichtiges Routing-Netzwerk (weniger als 0,4 % der Parameter) feinabgestimmt, um dynamisch aufgabenrelevante Experten aus der vortrainierten Bibliothek für nachgelagerte Robotikaufgaben auszuwählen. Wir führen zusätzlich Patchweise Experten-Routing mit Curriculum Top-K-Annealing ein, um sowohl die Flexibilität als auch die Präzision der dynamischen Expertenauswahl zu verbessern. Darüber hinaus unterstützt VER parameter-effizientes Feintuning für skalierbare Expertennutzung und adaptive Integration von roboterspezifischem Wissen. Über 17 verschiedene Robotikaufgaben und mehrere Politik-Köpfe hinweg erreicht VER state-of-the-art Leistung. Wir stellen fest, dass VER große Norm-Ausreißer in aufgabenirrelevanten Regionen (z. B. Hintergrund) reduziert und sich auf aufgabenkritische Regionen konzentriert. Visualisierungen und Codes sind unter https://yixiaowang7.github.io/ver_page/ verfügbar.
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich
visual representations, yet individual VFMs typically excel only in specific
domains, limiting generality across tasks. Distilling multiple VFMs into a
unified representation for policy can mitigate this limitation but often yields
inflexible task-specific feature selection and requires costly full re-training
to incorporate robot-domain knowledge. We propose VER, a Vision Expert
transformer for Robot learning. During pretraining, VER distills multiple VFMs
into a vision expert library. It then fine-tunes only a lightweight routing
network (fewer than 0.4% of parameters) to dynamically select task-relevant
experts from the pretrained library for downstream robot tasks. We further
introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve
both flexibility and precision of dynamic expert selection. Moreover, VER
supports parameter-efficient finetuning for scalable expert utilization and
adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks
and multiple policy heads, VER achieves state-of-the-art performance. We find
that VER reduces large-norm outliers in task-irrelevant regions (e.g.,
background) and concentrates on task-critical regions. Visualizations and codes
can be found in https://yixiaowang7.github.io/ver_page/.