ChatPaper.aiChatPaper

Theia: Destillierung verschiedener Vision-Grundlagenmodelle für das Lernen von Robotern

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

July 29, 2024
Autoren: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI

Zusammenfassung

Die lernbasierte Robotikpolitik auf der Grundlage von Visionen, die visuelle Eingaben in Aktionen abbildet, erfordert ein ganzheitliches Verständnis verschiedener visueller Aufgaben jenseits einzelner Anforderungen wie Klassifizierung oder Segmentierung. Inspiriert davon stellen wir Theia vor, ein Vision-Grundlagenmodell für das Roboterlernen, das mehrere handelsübliche Vision-Grundlagenmodelle zusammenfasst, die auf verschiedenen visuellen Aufgaben trainiert wurden. Die reichen visuellen Darstellungen von Theia codieren vielfältiges visuelles Wissen und verbessern das nachgelagerte Roboterlernen. Umfangreiche Experimente zeigen, dass Theia seine Lehrmodelle und frühere Roboterlernmodelle mit weniger Trainingsdaten und kleineren Modellgrößen übertrifft. Darüber hinaus quantifizieren wir die Qualität der vorab trainierten visuellen Darstellungen und stellen die Hypothese auf, dass eine höhere Entropie in den Merkmalsnormverteilungen zu einer verbesserten Leistung des Roboterlernens führt. Der Code und die Modelle sind unter https://github.com/bdaiinstitute/theia verfügbar.
English
Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia.

Summary

AI-Generated Summary

PDF483November 28, 2024