ChatPaper.aiChatPaper

Theia: Destillatie van diverse visuele basis-modellen voor robotleren

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

July 29, 2024
Auteurs: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI

Samenvatting

Visie-gebaseerd robotbeleid leren, dat visuele invoer vertaalt naar acties, vereist een holistisch begrip van diverse visuele taken die verder gaan dan enkelvoudige taakbehoeften zoals classificatie of segmentatie. Geïnspireerd door dit idee introduceren we Theia, een visueel basis model voor robotleren dat meerdere kant-en-klare visuele basis modellen destilleert die zijn getraind op uiteenlopende visuele taken. De rijke visuele representaties van Theia coderen diverse visuele kennis, wat het downstream robotleren verbetert. Uitgebreide experimenten tonen aan dat Theia zijn lerarenmodellen en eerdere robotleermodellen overtreft met minder trainingsdata en kleinere modelgroottes. Daarnaast kwantificeren we de kwaliteit van vooraf getrainde visuele representaties en stellen we de hypothese op dat een hogere entropie in de verdelingen van feature-normen leidt tot verbeterde robotleerprestaties. Code en modellen zijn beschikbaar op https://github.com/bdaiinstitute/theia.
English
Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia.
PDF473February 8, 2026