Theia: Сжатие разнообразных моделей основы зрительного восприятия для обучения роботов
Theia: Distilling Diverse Vision Foundation Models for Robot Learning
July 29, 2024
Авторы: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI
Аннотация
Обучение политики робота на основе зрительных данных, которое отображает визуальные входы на действия, требует всестороннего понимания разнообразных визуальных задач за пределами отдельных потребностей, таких как классификация или сегментация. Вдохновленные этим, мы представляем Theia, модель видового фундамента для обучения роботов, которая усваивает несколько готовых моделей видового фундамента, обученных на различных визуальных задачах. Богатые визуальные представления Theia кодируют разнообразные визуальные знания, улучшая последующее обучение роботов. Обширные эксперименты показывают, что Theia превосходит свои учителя-модели и предыдущие модели обучения роботов, используя меньше обучающих данных и более компактные размеры моделей. Кроме того, мы количественно оцениваем качество предварительно обученных визуальных представлений и предполагаем, что более высокая энтропия в распределениях норм признаков приводит к улучшению производительности обучения роботов. Код и модели доступны на https://github.com/bdaiinstitute/theia.
English
Vision-based robot policy learning, which maps visual inputs to actions,
necessitates a holistic understanding of diverse visual tasks beyond
single-task needs like classification or segmentation. Inspired by this, we
introduce Theia, a vision foundation model for robot learning that distills
multiple off-the-shelf vision foundation models trained on varied vision tasks.
Theia's rich visual representations encode diverse visual knowledge, enhancing
downstream robot learning. Extensive experiments demonstrate that Theia
outperforms its teacher models and prior robot learning models using less
training data and smaller model sizes. Additionally, we quantify the quality of
pre-trained visual representations and hypothesize that higher entropy in
feature norm distributions leads to improved robot learning performance. Code
and models are available at https://github.com/bdaiinstitute/theia.Summary
AI-Generated Summary