Vision Superalignment : Généralisation de Faible à Fort pour les Modèles Fondamentaux de Vision
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models
February 6, 2024
Auteurs: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI
Résumé
Les récents progrès dans les modèles de langage de grande envergure ont suscité un intérêt croissant pour leurs capacités extraordinaires et quasi surhumaines, incitant les chercheurs à explorer des méthodes pour évaluer et optimiser ces aptitudes, un domaine désigné sous le terme de superalignement. Dans ce contexte, notre article plonge dans le domaine des modèles de base en vision, en se concentrant sur le concept de généralisation faible-à-fort, qui consiste à utiliser un modèle plus faible pour superviser un modèle plus puissant, dans le but d'améliorer les capacités de ce dernier au-delà des limites du premier. Nous introduisons une nouvelle fonction de perte ajustable de manière adaptative pour la supervision faible-à-fort. Nos expériences approfondies couvrent divers scénarios, notamment l'apprentissage en few-shot, le transfer learning, l'apprentissage avec des étiquettes bruitées et les configurations classiques de distillation de connaissances. Les résultats sont frappants : notre approche dépasse non seulement les références de performance établies par la généralisation fort-à-fort, mais surpasse également les résultats obtenus par le fine-tuning de modèles puissants avec des ensembles de données complets. Ces preuves convaincantes soulignent le potentiel significatif de la généralisation faible-à-fort, démontrant sa capacité à améliorer considérablement les performances des modèles de base en vision. Le code est disponible à l'adresse suivante : https://github.com/ggjy/vision_weak_to_strong.
English
Recent advancements in large language models have sparked interest in their
extraordinary and near-superhuman capabilities, leading researchers to explore
methods for evaluating and optimizing these abilities, which is called
superalignment. In this context, our paper delves into the realm of vision
foundation models, focusing on the concept of weak-to-strong generalization,
which involves using a weaker model to supervise a stronger one, aiming to
enhance the latter's capabilities beyond the former's limits. We introduce a
novel and adaptively adjustable loss function for weak-to-strong supervision.
Our comprehensive experiments span various scenarios, including few-shot
learning, transfer learning, noisy label learning, and common knowledge
distillation settings. The results are striking: our approach not only exceeds
the performance benchmarks set by strong-to-strong generalization but also
surpasses the outcomes of fine-tuning strong models with whole datasets. This
compelling evidence underscores the significant potential of weak-to-strong
generalization, showcasing its capability to substantially elevate the
performance of vision foundation models. The code is available at
https://github.com/ggjy/vision_weak_to_strong.