Theia : Distillation de modèles de fondation visuels diversifiés pour l'apprentissage robotique

papers.abstract

L'apprentissage de politiques robotiques basé sur la vision, qui associe des entrées visuelles à des actions, nécessite une compréhension globale de diverses tâches visuelles, allant au-delà des besoins spécifiques comme la classification ou la segmentation. Inspirés par cela, nous présentons Theia, un modèle de fondation visuel pour l'apprentissage robotique, qui distille plusieurs modèles de fondation visuels préexistants entraînés sur des tâches visuelles variées. Les représentations visuelles riches de Theia encodent une connaissance visuelle diversifiée, améliorant ainsi l'apprentissage robotique en aval. Des expériences approfondies démontrent que Theia surpasse ses modèles enseignants et les modèles d'apprentissage robotique antérieurs, tout en utilisant moins de données d'entraînement et des tailles de modèle réduites. De plus, nous quantifions la qualité des représentations visuelles pré-entraînées et émettons l'hypothèse qu'une entropie plus élevée dans les distributions de normes de caractéristiques conduit à une meilleure performance d'apprentissage robotique. Le code et les modèles sont disponibles à l'adresse https://github.com/bdaiinstitute/theia.

English

Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia.

Theia : Distillation de modèles de fondation visuels diversifiés pour l'apprentissage robotique

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

papers.abstract

Support