VER: Vision Expert Transformer para Aprendizado de Robótica via Distilação de Fundação e Roteamento Dinâmico

Resumo

Modelos de visão pré-treinados (VFMs) avançam o aprendizado robótico por meio de representações visuais ricas, porém, VFMs individuais geralmente se destacam apenas em domínios específicos, limitando a generalidade entre tarefas. A destilação de múltiplos VFMs em uma representação unificada para políticas pode mitigar essa limitação, mas frequentemente resulta em uma seleção de características inflexível e específica para cada tarefa, exigindo um retreinamento completo e custoso para incorporar conhecimento do domínio robótico. Propomos o VER, um transformer de Visão Especializada para aprendizado robótico. Durante o pré-treinamento, o VER destila múltiplos VFMs em uma biblioteca de especialistas visuais. Em seguida, ele ajusta apenas uma rede de roteamento leve (menos de 0,4% dos parâmetros) para selecionar dinamicamente especialistas relevantes para a tarefa a partir da biblioteca pré-treinada, aplicando-os a tarefas robóticas subsequentes. Além disso, introduzimos o Roteamento de Especialistas por Fragmentos com Anelamento Top-K Curricular para melhorar tanto a flexibilidade quanto a precisão da seleção dinâmica de especialistas. Adicionalmente, o VER suporta ajuste eficiente de parâmetros para utilização escalável de especialistas e integração adaptativa de conhecimento do domínio robótico. Em 17 tarefas robóticas diversas e múltiplas cabeças de política, o VER alcança desempenho de ponta. Observamos que o VER reduz outliers de grande norma em regiões irrelevantes para a tarefa (por exemplo, fundo) e se concentra em regiões críticas para a tarefa. Visualizações e códigos podem ser encontrados em https://yixiaowang7.github.io/ver_page/.

English

Pretrained vision foundation models (VFMs) advance robotic learning via rich visual representations, yet individual VFMs typically excel only in specific domains, limiting generality across tasks. Distilling multiple VFMs into a unified representation for policy can mitigate this limitation but often yields inflexible task-specific feature selection and requires costly full re-training to incorporate robot-domain knowledge. We propose VER, a Vision Expert transformer for Robot learning. During pretraining, VER distills multiple VFMs into a vision expert library. It then fine-tunes only a lightweight routing network (fewer than 0.4% of parameters) to dynamically select task-relevant experts from the pretrained library for downstream robot tasks. We further introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve both flexibility and precision of dynamic expert selection. Moreover, VER supports parameter-efficient finetuning for scalable expert utilization and adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks and multiple policy heads, VER achieves state-of-the-art performance. We find that VER reduces large-norm outliers in task-irrelevant regions (e.g., background) and concentrates on task-critical regions. Visualizations and codes can be found in https://yixiaowang7.github.io/ver_page/.

VER: Vision Expert Transformer para Aprendizado de Robótica via Distilação de Fundação e Roteamento Dinâmico

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Resumo

Support