PTOA: Vor dem Training einmal für Modelle aller Größen
POA: Pre-training Once for Models of All Sizes
August 2, 2024
Autoren: Yingying Zhang, Xin Guo, Jiangwei Lao, Lei Yu, Lixiang Ru, Jian Wang, Guo Ye, Huimei He, Jingdong Chen, Ming Yang
cs.AI
Zusammenfassung
Die groß angelegte selbstüberwachte Vorab-Schulung hat den Weg für ein Grundlagenmodell geebnet, um viele verschiedene Visionstasks zu bewältigen. Die meisten Vorab-Schulungsmethoden trainieren zur gleichen Zeit ein einzelnes Modell einer bestimmten Größe. Dennoch erfordern verschiedene Berechnungs- oder Speicherbeschränkungen in realen Szenarien erhebliche Anstrengungen, um eine Reihe von Modellen mit unterschiedlichen Größen zu entwickeln, die bereitgestellt werden können. Daher schlagen wir in dieser Studie ein neuartiges dreigleisiges selbstüberwachtes Schulungsrahmenwerk vor, das als POA (Pre-training Once for All) bezeichnet wird, um dieses oben genannte Problem anzugehen. Unser Ansatz führt einen innovativen elastischen Schülerzweig in ein modernes Selbst-Destillationsparadigma ein. Bei jedem Vorab-Schritt ziehen wir zufällig ein Subnetzwerk aus dem ursprünglichen Schüler, um den elastischen Schüler zu bilden, und trainieren alle Zweige auf selbstdestillierende Weise. Einmal vorab geschult, ermöglicht POA die Extraktion von vorab geschulten Modellen unterschiedlicher Größen für nachgelagerte Aufgaben. Bemerkenswerterweise erleichtert der elastische Schüler die gleichzeitige Vorab-Schulung mehrerer Modelle mit unterschiedlichen Größen, der auch als zusätzliches Ensemble von Modellen verschiedener Größen zur Verbesserung des Repräsentationslernens dient. Umfangreiche Experimente, einschließlich k-nächster Nachbarn, lineare Sondierungsbewertung und Bewertungen auf mehreren nachgelagerten Aufgaben, zeigen die Wirksamkeit und Vorteile unseres POA. Es erreicht Spitzenleistungen unter Verwendung von ViT, Swin Transformer und ResNet-Backbones und erzeugt ungefähr hundert Modelle mit unterschiedlichen Größen in einer einzigen Vorab-Sitzung. Der Code ist verfügbar unter: https://github.com/Qichuzyy/POA.
English
Large-scale self-supervised pre-training has paved the way for one foundation
model to handle many different vision tasks. Most pre-training methodologies
train a single model of a certain size at one time. Nevertheless, various
computation or storage constraints in real-world scenarios require substantial
efforts to develop a series of models with different sizes to deploy. Thus, in
this study, we propose a novel tri-branch self-supervised training framework,
termed as POA (Pre-training Once for All), to tackle this aforementioned issue.
Our approach introduces an innovative elastic student branch into a modern
self-distillation paradigm. At each pre-training step, we randomly sample a
sub-network from the original student to form the elastic student and train all
branches in a self-distilling fashion. Once pre-trained, POA allows the
extraction of pre-trained models of diverse sizes for downstream tasks.
Remarkably, the elastic student facilitates the simultaneous pre-training of
multiple models with different sizes, which also acts as an additional ensemble
of models of various sizes to enhance representation learning. Extensive
experiments, including k-nearest neighbors, linear probing evaluation and
assessments on multiple downstream tasks demonstrate the effectiveness and
advantages of our POA. It achieves state-of-the-art performance using ViT, Swin
Transformer and ResNet backbones, producing around a hundred models with
different sizes through a single pre-training session. The code is available
at: https://github.com/Qichuzyy/POA.Summary
AI-Generated Summary