Theia: Сжатие разнообразных моделей основы зрительного восприятия для обучения роботов

Аннотация

Обучение политики робота на основе зрительных данных, которое отображает визуальные входы на действия, требует всестороннего понимания разнообразных визуальных задач за пределами отдельных потребностей, таких как классификация или сегментация. Вдохновленные этим, мы представляем Theia, модель видового фундамента для обучения роботов, которая усваивает несколько готовых моделей видового фундамента, обученных на различных визуальных задачах. Богатые визуальные представления Theia кодируют разнообразные визуальные знания, улучшая последующее обучение роботов. Обширные эксперименты показывают, что Theia превосходит свои учителя-модели и предыдущие модели обучения роботов, используя меньше обучающих данных и более компактные размеры моделей. Кроме того, мы количественно оцениваем качество предварительно обученных визуальных представлений и предполагаем, что более высокая энтропия в распределениях норм признаков приводит к улучшению производительности обучения роботов. Код и модели доступны на https://github.com/bdaiinstitute/theia.

English

Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia.

Theia: Сжатие разнообразных моделей основы зрительного восприятия для обучения роботов

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

Аннотация

Support