ChatPaper.aiChatPaper

PTOA: Vor dem Training einmal für Modelle aller Größen

POA: Pre-training Once for Models of All Sizes

August 2, 2024
Autoren: Yingying Zhang, Xin Guo, Jiangwei Lao, Lei Yu, Lixiang Ru, Jian Wang, Guo Ye, Huimei He, Jingdong Chen, Ming Yang
cs.AI

Zusammenfassung

Die groß angelegte selbstüberwachte Vorab-Schulung hat den Weg für ein Grundlagenmodell geebnet, um viele verschiedene Visionstasks zu bewältigen. Die meisten Vorab-Schulungsmethoden trainieren zur gleichen Zeit ein einzelnes Modell einer bestimmten Größe. Dennoch erfordern verschiedene Berechnungs- oder Speicherbeschränkungen in realen Szenarien erhebliche Anstrengungen, um eine Reihe von Modellen mit unterschiedlichen Größen zu entwickeln, die bereitgestellt werden können. Daher schlagen wir in dieser Studie ein neuartiges dreigleisiges selbstüberwachtes Schulungsrahmenwerk vor, das als POA (Pre-training Once for All) bezeichnet wird, um dieses oben genannte Problem anzugehen. Unser Ansatz führt einen innovativen elastischen Schülerzweig in ein modernes Selbst-Destillationsparadigma ein. Bei jedem Vorab-Schritt ziehen wir zufällig ein Subnetzwerk aus dem ursprünglichen Schüler, um den elastischen Schüler zu bilden, und trainieren alle Zweige auf selbstdestillierende Weise. Einmal vorab geschult, ermöglicht POA die Extraktion von vorab geschulten Modellen unterschiedlicher Größen für nachgelagerte Aufgaben. Bemerkenswerterweise erleichtert der elastische Schüler die gleichzeitige Vorab-Schulung mehrerer Modelle mit unterschiedlichen Größen, der auch als zusätzliches Ensemble von Modellen verschiedener Größen zur Verbesserung des Repräsentationslernens dient. Umfangreiche Experimente, einschließlich k-nächster Nachbarn, lineare Sondierungsbewertung und Bewertungen auf mehreren nachgelagerten Aufgaben, zeigen die Wirksamkeit und Vorteile unseres POA. Es erreicht Spitzenleistungen unter Verwendung von ViT, Swin Transformer und ResNet-Backbones und erzeugt ungefähr hundert Modelle mit unterschiedlichen Größen in einer einzigen Vorab-Sitzung. Der Code ist verfügbar unter: https://github.com/Qichuzyy/POA.
English
Large-scale self-supervised pre-training has paved the way for one foundation model to handle many different vision tasks. Most pre-training methodologies train a single model of a certain size at one time. Nevertheless, various computation or storage constraints in real-world scenarios require substantial efforts to develop a series of models with different sizes to deploy. Thus, in this study, we propose a novel tri-branch self-supervised training framework, termed as POA (Pre-training Once for All), to tackle this aforementioned issue. Our approach introduces an innovative elastic student branch into a modern self-distillation paradigm. At each pre-training step, we randomly sample a sub-network from the original student to form the elastic student and train all branches in a self-distilling fashion. Once pre-trained, POA allows the extraction of pre-trained models of diverse sizes for downstream tasks. Remarkably, the elastic student facilitates the simultaneous pre-training of multiple models with different sizes, which also acts as an additional ensemble of models of various sizes to enhance representation learning. Extensive experiments, including k-nearest neighbors, linear probing evaluation and assessments on multiple downstream tasks demonstrate the effectiveness and advantages of our POA. It achieves state-of-the-art performance using ViT, Swin Transformer and ResNet backbones, producing around a hundred models with different sizes through a single pre-training session. The code is available at: https://github.com/Qichuzyy/POA.

Summary

AI-Generated Summary

PDF293November 28, 2024