VER: 기초 지식 증류와 동적 라우팅을 통한 로봇 학습을 위한 비전 전문가 트랜스포머
VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
October 6, 2025
저자: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI
초록
사전 학습된 비전 기초 모델(VFMs)은 풍부한 시각적 표현을 통해 로봇 학습을 발전시키지만, 개별 VFM은 일반적으로 특정 도메인에서만 뛰어나기 때문에 다양한 작업에 걸친 일반성이 제한됩니다. 여러 VFM을 정책을 위한 통합 표현으로 압축하면 이러한 한계를 완화할 수 있지만, 이는 종종 유연하지 않은 작업별 특징 선택을 초래하고 로봇 도메인 지식을 통합하기 위해 비용이 많이 드는 전체 재학습을 필요로 합니다. 우리는 로봇 학습을 위한 비전 전문가 트랜스포머인 VER을 제안합니다. 사전 학습 동안 VER은 여러 VFM을 비전 전문가 라이브러리로 압축합니다. 그런 다음 사전 학습된 라이브러리에서 작업과 관련된 전문가를 동적으로 선택하기 위해 경량 라우팅 네트워크(매개변수의 0.4% 미만)만 미세 조정합니다. 또한, 동적 전문가 선택의 유연성과 정밀도를 향상시키기 위해 Curriculum Top-K Annealing을 통한 Patchwise Expert Routing을 도입했습니다. 더 나아가, VER은 확장 가능한 전문가 활용과 적응형 로봇 도메인 지식 통합을 위한 매개변수 효율적 미세 조정을 지원합니다. 17가지 다양한 로봇 작업과 여러 정책 헤드에서 VER은 최첨단 성능을 달성했습니다. 우리는 VER이 작업과 무관한 영역(예: 배경)에서 큰 규모의 이상치를 줄이고 작업에 중요한 영역에 집중한다는 것을 발견했습니다. 시각화 자료와 코드는 https://yixiaowang7.github.io/ver_page/에서 확인할 수 있습니다.
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich
visual representations, yet individual VFMs typically excel only in specific
domains, limiting generality across tasks. Distilling multiple VFMs into a
unified representation for policy can mitigate this limitation but often yields
inflexible task-specific feature selection and requires costly full re-training
to incorporate robot-domain knowledge. We propose VER, a Vision Expert
transformer for Robot learning. During pretraining, VER distills multiple VFMs
into a vision expert library. It then fine-tunes only a lightweight routing
network (fewer than 0.4% of parameters) to dynamically select task-relevant
experts from the pretrained library for downstream robot tasks. We further
introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve
both flexibility and precision of dynamic expert selection. Moreover, VER
supports parameter-efficient finetuning for scalable expert utilization and
adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks
and multiple policy heads, VER achieves state-of-the-art performance. We find
that VER reduces large-norm outliers in task-irrelevant regions (e.g.,
background) and concentrates on task-critical regions. Visualizations and codes
can be found in https://yixiaowang7.github.io/ver_page/.