ChatPaper.aiChatPaper

VER: Transformador Experto en Visión para el Aprendizaje de Robots mediante Destilación de Fundamento y Enrutamiento Dinámico

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

October 6, 2025
Autores: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka
cs.AI

Resumen

Los modelos de visión preentrenados (VFMs, por sus siglas en inglés) avanzan el aprendizaje robótico mediante representaciones visuales ricas, aunque los VFMs individuales suelen destacar solo en dominios específicos, lo que limita su generalidad en diversas tareas. La destilación de múltiples VFMs en una representación unificada para la política puede mitigar esta limitación, pero a menudo resulta en una selección de características inflexible y específica para la tarea, además de requerir un costoso reentrenamiento completo para incorporar conocimiento del dominio robótico. Proponemos VER, un transformador de expertos en visión para el aprendizaje robótico. Durante el preentrenamiento, VER destila múltiples VFMs en una biblioteca de expertos en visión. Luego, ajusta únicamente una red de enrutamiento ligera (menos del 0.4% de los parámetros) para seleccionar dinámicamente expertos relevantes para la tarea desde la biblioteca preentrenada, aplicándolos a tareas robóticas posteriores. Además, introducimos el Enrutamiento de Expertos por Parches con Anillado Top-K Curricular para mejorar tanto la flexibilidad como la precisión en la selección dinámica de expertos. Asimismo, VER permite un ajuste eficiente en parámetros para una utilización escalable de expertos y una integración adaptativa del conocimiento del dominio robótico. En 17 tareas robóticas diversas y múltiples cabezas de política, VER logra un rendimiento de vanguardia. Observamos que VER reduce los valores atípicos de gran norma en regiones irrelevantes para la tarea (por ejemplo, el fondo) y se concentra en regiones críticas para la tarea. Las visualizaciones y códigos pueden encontrarse en https://yixiaowang7.github.io/ver_page/.
English
Pretrained vision foundation models (VFMs) advance robotic learning via rich visual representations, yet individual VFMs typically excel only in specific domains, limiting generality across tasks. Distilling multiple VFMs into a unified representation for policy can mitigate this limitation but often yields inflexible task-specific feature selection and requires costly full re-training to incorporate robot-domain knowledge. We propose VER, a Vision Expert transformer for Robot learning. During pretraining, VER distills multiple VFMs into a vision expert library. It then fine-tunes only a lightweight routing network (fewer than 0.4% of parameters) to dynamically select task-relevant experts from the pretrained library for downstream robot tasks. We further introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve both flexibility and precision of dynamic expert selection. Moreover, VER supports parameter-efficient finetuning for scalable expert utilization and adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks and multiple policy heads, VER achieves state-of-the-art performance. We find that VER reduces large-norm outliers in task-irrelevant regions (e.g., background) and concentrates on task-critical regions. Visualizations and codes can be found in https://yixiaowang7.github.io/ver_page/.
PDF42October 14, 2025