POA : Pré-entraînement unique pour des modèles de toutes tailles

papers.abstract

Le pré-entraînement auto-supervisé à grande échelle a ouvert la voie à un modèle de base capable de gérer de nombreuses tâches visuelles différentes. La plupart des méthodologies de pré-entraînement entraînent un seul modèle d'une certaine taille à la fois. Cependant, diverses contraintes de calcul ou de stockage dans des scénarios réels nécessitent des efforts considérables pour développer une série de modèles de différentes tailles à déployer. Ainsi, dans cette étude, nous proposons un nouveau cadre de formation auto-supervisé à trois branches, appelé POA (Pre-training Once for All), pour résoudre ce problème susmentionné. Notre approche introduit une branche étudiante élastique innovante dans un paradigme moderne d'auto-distillation. À chaque étape de pré-entraînement, nous échantillonnons aléatoirement un sous-réseau de l'étudiant original pour former l'étudiant élastique et entraînons toutes les branches de manière auto-distillante. Une fois pré-entraîné, POA permet l'extraction de modèles pré-entraînés de tailles diverses pour les tâches en aval. Remarquablement, l'étudiant élastique facilite le pré-entraînement simultané de plusieurs modèles de différentes tailles, qui agit également comme un ensemble supplémentaire de modèles de diverses tailles pour améliorer l'apprentissage de la représentation. Des expériences approfondies, incluant les k-plus proches voisins, l'évaluation par sondage linéaire et des évaluations sur plusieurs tâches en aval, démontrent l'efficacité et les avantages de notre POA. Il atteint des performances de pointe en utilisant les architectures ViT, Swin Transformer et ResNet, produisant environ une centaine de modèles de différentes tailles grâce à une seule session de pré-entraînement. Le code est disponible à l'adresse : https://github.com/Qichuzyy/POA.

English

Large-scale self-supervised pre-training has paved the way for one foundation model to handle many different vision tasks. Most pre-training methodologies train a single model of a certain size at one time. Nevertheless, various computation or storage constraints in real-world scenarios require substantial efforts to develop a series of models with different sizes to deploy. Thus, in this study, we propose a novel tri-branch self-supervised training framework, termed as POA (Pre-training Once for All), to tackle this aforementioned issue. Our approach introduces an innovative elastic student branch into a modern self-distillation paradigm. At each pre-training step, we randomly sample a sub-network from the original student to form the elastic student and train all branches in a self-distilling fashion. Once pre-trained, POA allows the extraction of pre-trained models of diverse sizes for downstream tasks. Remarkably, the elastic student facilitates the simultaneous pre-training of multiple models with different sizes, which also acts as an additional ensemble of models of various sizes to enhance representation learning. Extensive experiments, including k-nearest neighbors, linear probing evaluation and assessments on multiple downstream tasks demonstrate the effectiveness and advantages of our POA. It achieves state-of-the-art performance using ViT, Swin Transformer and ResNet backbones, producing around a hundred models with different sizes through a single pre-training session. The code is available at: https://github.com/Qichuzyy/POA.

POA : Pré-entraînement unique pour des modèles de toutes tailles

POA: Pre-training Once for Models of All Sizes

papers.abstract

Support