ChatPaper.aiChatPaper

VER: Vision Expert Transformer для обучения роботов через дистилляцию фундаментальных моделей и динамическую маршрутизацию

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

October 6, 2025
Авторы: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI

Аннотация

Предобученные базовые модели компьютерного зрения (VFMs) способствуют развитию робототехнического обучения за счет богатых визуальных представлений, однако отдельные VFMs обычно демонстрируют высокую эффективность только в узких областях, что ограничивает их универсальность для различных задач. Объединение нескольких VFMs в единое представление для политики может смягчить это ограничение, но часто приводит к негибкому выбору признаков, специфичных для задачи, и требует дорогостоящего полного переобучения для интеграции знаний, связанных с робототехникой. Мы предлагаем VER (Vision Expert Transformer) — трансформер для обучения роботов. На этапе предобучения VER объединяет несколько VFMs в библиотеку визуальных экспертов. Затем он дообучает только легковесную маршрутизирующую сеть (менее 0,4% параметров) для динамического выбора экспертов, релевантных задаче, из предобученной библиотеки для последующих робототехнических задач. Мы также вводим метод Patchwise Expert Routing с Curriculum Top-K Annealing для повышения гибкости и точности динамического выбора экспертов. Кроме того, VER поддерживает параметрически эффективное дообучение для масштабируемого использования экспертов и адаптивной интеграции знаний, связанных с робототехникой. На 17 разнообразных робототехнических задачах и с использованием нескольких голов политики VER демонстрирует наилучшие результаты. Мы обнаружили, что VER уменьшает выбросы с большими нормами в областях, не релевантных задаче (например, фон), и фокусируется на критически важных для задачи областях. Визуализации и коды доступны по ссылке: https://yixiaowang7.github.io/ver_page/.
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich visual representations, yet individual VFMs typically excel only in specific domains, limiting generality across tasks. Distilling multiple VFMs into a unified representation for policy can mitigate this limitation but often yields inflexible task-specific feature selection and requires costly full re-training to incorporate robot-domain knowledge. We propose VER, a Vision Expert transformer for Robot learning. During pretraining, VER distills multiple VFMs into a vision expert library. It then fine-tunes only a lightweight routing network (fewer than 0.4% of parameters) to dynamically select task-relevant experts from the pretrained library for downstream robot tasks. We further introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve both flexibility and precision of dynamic expert selection. Moreover, VER supports parameter-efficient finetuning for scalable expert utilization and adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks and multiple policy heads, VER achieves state-of-the-art performance. We find that VER reduces large-norm outliers in task-irrelevant regions (e.g., background) and concentrates on task-critical regions. Visualizations and codes can be found in https://yixiaowang7.github.io/ver_page/.
PDF42October 14, 2025