ChatPaper.aiChatPaper

VER: Vision Expert Transformer per l'Apprendimento Robotico tramite Distillazione di Fondamenti e Routing Dinamico

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

October 6, 2025
Autori: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI

Abstract

I modelli di fondazione visiva pre-addestrati (VFMs) avanzano l'apprendimento robotico attraverso rappresentazioni visive ricche, tuttavia i singoli VFMs tipicamente eccellono solo in domini specifici, limitando la generalità tra i compiti. Distillare più VFMs in una rappresentazione unificata per la politica può mitigare questa limitazione, ma spesso produce una selezione di caratteristiche specifiche per il compito poco flessibile e richiede un costoso ri-addestramento completo per incorporare conoscenze del dominio robotico. Proponiamo VER, un trasformatore Vision Expert per l'apprendimento robotico. Durante il pre-addestramento, VER distilla più VFMs in una libreria di esperti visivi. Successivamente, fine-tune solo una rete di routing leggera (meno dello 0,4% dei parametri) per selezionare dinamicamente esperti rilevanti per il compito dalla libreria pre-addestrata per i compiti robotici downstream. Introduciamo inoltre il Patchwise Expert Routing con Curriculum Top-K Annealing per migliorare sia la flessibilità che la precisione della selezione dinamica degli esperti. Inoltre, VER supporta il fine-tuning efficiente in termini di parametri per un utilizzo scalabile degli esperti e un'integrazione adattiva delle conoscenze del dominio robotico. Su 17 compiti robotici diversi e più teste di politica, VER raggiunge prestazioni all'avanguardia. Troviamo che VER riduce gli outlier a grande norma nelle regioni irrilevanti per il compito (ad esempio, lo sfondo) e si concentra sulle regioni critiche per il compito. Visualizzazioni e codici sono disponibili su https://yixiaowang7.github.io/ver_page/.
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich visual representations, yet individual VFMs typically excel only in specific domains, limiting generality across tasks. Distilling multiple VFMs into a unified representation for policy can mitigate this limitation but often yields inflexible task-specific feature selection and requires costly full re-training to incorporate robot-domain knowledge. We propose VER, a Vision Expert transformer for Robot learning. During pretraining, VER distills multiple VFMs into a vision expert library. It then fine-tunes only a lightweight routing network (fewer than 0.4% of parameters) to dynamically select task-relevant experts from the pretrained library for downstream robot tasks. We further introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve both flexibility and precision of dynamic expert selection. Moreover, VER supports parameter-efficient finetuning for scalable expert utilization and adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks and multiple policy heads, VER achieves state-of-the-art performance. We find that VER reduces large-norm outliers in task-irrelevant regions (e.g., background) and concentrates on task-critical regions. Visualizations and codes can be found in https://yixiaowang7.github.io/ver_page/.
PDF52October 14, 2025