Vision Superalignment: Zwak-naar-sterk Generalisatie voor Vision Foundation Modellen
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models
February 6, 2024
Auteurs: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen hebben interesse gewekt in hun buitengewone en bijna bovenmenselijke capaciteiten, wat onderzoekers heeft aangezet om methoden te verkennen voor het evalueren en optimaliseren van deze vaardigheden, een proces dat superalignment wordt genoemd. In deze context duikt ons artikel in het domein van visuele foundationmodellen, met een focus op het concept van zwak-naar-sterk generalisatie, waarbij een zwakker model wordt gebruikt om een sterker model te begeleiden, met als doel de capaciteiten van het sterkere model te verbeteren voorbij de grenzen van het zwakkere model. We introduceren een nieuwe en adaptief instelbare verliesfunctie voor zwak-naar-sterk begeleiding. Onze uitgebreide experimenten beslaan verschillende scenario's, waaronder few-shot leren, transfer leren, leren met ruisige labels en gebruikelijke kennisdistillatie-instellingen. De resultaten zijn opvallend: onze aanpak overtreft niet alleen de prestatienormen die zijn gesteld door sterk-naar-sterk generalisatie, maar overstijgt ook de resultaten van het finetunen van sterke modellen met volledige datasets. Dit overtuigende bewijs onderstreept het aanzienlijke potentieel van zwak-naar-sterk generalisatie, en toont aan dat het in staat is om de prestaties van visuele foundationmodellen aanzienlijk te verhogen. De code is beschikbaar op https://github.com/ggjy/vision_weak_to_strong.
English
Recent advancements in large language models have sparked interest in their
extraordinary and near-superhuman capabilities, leading researchers to explore
methods for evaluating and optimizing these abilities, which is called
superalignment. In this context, our paper delves into the realm of vision
foundation models, focusing on the concept of weak-to-strong generalization,
which involves using a weaker model to supervise a stronger one, aiming to
enhance the latter's capabilities beyond the former's limits. We introduce a
novel and adaptively adjustable loss function for weak-to-strong supervision.
Our comprehensive experiments span various scenarios, including few-shot
learning, transfer learning, noisy label learning, and common knowledge
distillation settings. The results are striking: our approach not only exceeds
the performance benchmarks set by strong-to-strong generalization but also
surpasses the outcomes of fine-tuning strong models with whole datasets. This
compelling evidence underscores the significant potential of weak-to-strong
generalization, showcasing its capability to substantially elevate the
performance of vision foundation models. The code is available at
https://github.com/ggjy/vision_weak_to_strong.