Theia: Destillierung verschiedener Vision-Grundlagenmodelle für das Lernen von Robotern
Theia: Distilling Diverse Vision Foundation Models for Robot Learning
July 29, 2024
Autoren: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI
Zusammenfassung
Die lernbasierte Robotikpolitik auf der Grundlage von Visionen, die visuelle Eingaben in Aktionen abbildet, erfordert ein ganzheitliches Verständnis verschiedener visueller Aufgaben jenseits einzelner Anforderungen wie Klassifizierung oder Segmentierung. Inspiriert davon stellen wir Theia vor, ein Vision-Grundlagenmodell für das Roboterlernen, das mehrere handelsübliche Vision-Grundlagenmodelle zusammenfasst, die auf verschiedenen visuellen Aufgaben trainiert wurden. Die reichen visuellen Darstellungen von Theia codieren vielfältiges visuelles Wissen und verbessern das nachgelagerte Roboterlernen. Umfangreiche Experimente zeigen, dass Theia seine Lehrmodelle und frühere Roboterlernmodelle mit weniger Trainingsdaten und kleineren Modellgrößen übertrifft. Darüber hinaus quantifizieren wir die Qualität der vorab trainierten visuellen Darstellungen und stellen die Hypothese auf, dass eine höhere Entropie in den Merkmalsnormverteilungen zu einer verbesserten Leistung des Roboterlernens führt. Der Code und die Modelle sind unter https://github.com/bdaiinstitute/theia verfügbar.
English
Vision-based robot policy learning, which maps visual inputs to actions,
necessitates a holistic understanding of diverse visual tasks beyond
single-task needs like classification or segmentation. Inspired by this, we
introduce Theia, a vision foundation model for robot learning that distills
multiple off-the-shelf vision foundation models trained on varied vision tasks.
Theia's rich visual representations encode diverse visual knowledge, enhancing
downstream robot learning. Extensive experiments demonstrate that Theia
outperforms its teacher models and prior robot learning models using less
training data and smaller model sizes. Additionally, we quantify the quality of
pre-trained visual representations and hypothesize that higher entropy in
feature norm distributions leads to improved robot learning performance. Code
and models are available at https://github.com/bdaiinstitute/theia.Summary
AI-Generated Summary