ChatPaper.aiChatPaper

Vision Superalignment : Généralisation de Faible à Fort pour les Modèles Fondamentaux de Vision

Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

February 6, 2024
Auteurs: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI

Résumé

Les récents progrès dans les modèles de langage de grande envergure ont suscité un intérêt croissant pour leurs capacités extraordinaires et quasi surhumaines, incitant les chercheurs à explorer des méthodes pour évaluer et optimiser ces aptitudes, un domaine désigné sous le terme de superalignement. Dans ce contexte, notre article plonge dans le domaine des modèles de base en vision, en se concentrant sur le concept de généralisation faible-à-fort, qui consiste à utiliser un modèle plus faible pour superviser un modèle plus puissant, dans le but d'améliorer les capacités de ce dernier au-delà des limites du premier. Nous introduisons une nouvelle fonction de perte ajustable de manière adaptative pour la supervision faible-à-fort. Nos expériences approfondies couvrent divers scénarios, notamment l'apprentissage en few-shot, le transfer learning, l'apprentissage avec des étiquettes bruitées et les configurations classiques de distillation de connaissances. Les résultats sont frappants : notre approche dépasse non seulement les références de performance établies par la généralisation fort-à-fort, mais surpasse également les résultats obtenus par le fine-tuning de modèles puissants avec des ensembles de données complets. Ces preuves convaincantes soulignent le potentiel significatif de la généralisation faible-à-fort, démontrant sa capacité à améliorer considérablement les performances des modèles de base en vision. Le code est disponible à l'adresse suivante : https://github.com/ggjy/vision_weak_to_strong.
English
Recent advancements in large language models have sparked interest in their extraordinary and near-superhuman capabilities, leading researchers to explore methods for evaluating and optimizing these abilities, which is called superalignment. In this context, our paper delves into the realm of vision foundation models, focusing on the concept of weak-to-strong generalization, which involves using a weaker model to supervise a stronger one, aiming to enhance the latter's capabilities beyond the former's limits. We introduce a novel and adaptively adjustable loss function for weak-to-strong supervision. Our comprehensive experiments span various scenarios, including few-shot learning, transfer learning, noisy label learning, and common knowledge distillation settings. The results are striking: our approach not only exceeds the performance benchmarks set by strong-to-strong generalization but also surpasses the outcomes of fine-tuning strong models with whole datasets. This compelling evidence underscores the significant potential of weak-to-strong generalization, showcasing its capability to substantially elevate the performance of vision foundation models. The code is available at https://github.com/ggjy/vision_weak_to_strong.
PDF131December 15, 2024