VER: Vision Expert Transformer para Aprendizado de Robótica via Distilação de Fundação e Roteamento Dinâmico
VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
October 6, 2025
Autores: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI
Resumo
Modelos de visão pré-treinados (VFMs) avançam o aprendizado robótico por meio de representações visuais ricas, porém, VFMs individuais geralmente se destacam apenas em domínios específicos, limitando a generalidade entre tarefas. A destilação de múltiplos VFMs em uma representação unificada para políticas pode mitigar essa limitação, mas frequentemente resulta em uma seleção de características inflexível e específica para cada tarefa, exigindo um retreinamento completo e custoso para incorporar conhecimento do domínio robótico. Propomos o VER, um transformer de Visão Especializada para aprendizado robótico. Durante o pré-treinamento, o VER destila múltiplos VFMs em uma biblioteca de especialistas visuais. Em seguida, ele ajusta apenas uma rede de roteamento leve (menos de 0,4% dos parâmetros) para selecionar dinamicamente especialistas relevantes para a tarefa a partir da biblioteca pré-treinada, aplicando-os a tarefas robóticas subsequentes. Além disso, introduzimos o Roteamento de Especialistas por Fragmentos com Anelamento Top-K Curricular para melhorar tanto a flexibilidade quanto a precisão da seleção dinâmica de especialistas. Adicionalmente, o VER suporta ajuste eficiente de parâmetros para utilização escalável de especialistas e integração adaptativa de conhecimento do domínio robótico. Em 17 tarefas robóticas diversas e múltiplas cabeças de política, o VER alcança desempenho de ponta. Observamos que o VER reduz outliers de grande norma em regiões irrelevantes para a tarefa (por exemplo, fundo) e se concentra em regiões críticas para a tarefa. Visualizações e códigos podem ser encontrados em https://yixiaowang7.github.io/ver_page/.
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich
visual representations, yet individual VFMs typically excel only in specific
domains, limiting generality across tasks. Distilling multiple VFMs into a
unified representation for policy can mitigate this limitation but often yields
inflexible task-specific feature selection and requires costly full re-training
to incorporate robot-domain knowledge. We propose VER, a Vision Expert
transformer for Robot learning. During pretraining, VER distills multiple VFMs
into a vision expert library. It then fine-tunes only a lightweight routing
network (fewer than 0.4% of parameters) to dynamically select task-relevant
experts from the pretrained library for downstream robot tasks. We further
introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve
both flexibility and precision of dynamic expert selection. Moreover, VER
supports parameter-efficient finetuning for scalable expert utilization and
adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks
and multiple policy heads, VER achieves state-of-the-art performance. We find
that VER reduces large-norm outliers in task-irrelevant regions (e.g.,
background) and concentrates on task-critical regions. Visualizations and codes
can be found in https://yixiaowang7.github.io/ver_page/.