Superalinhamento Visual: Generalização de Fraco para Forte em Modelos de Base Visual
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models
February 6, 2024
Autores: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala despertaram interesse em suas capacidades extraordinárias e quase sobre-humanas, levando os pesquisadores a explorar métodos para avaliar e otimizar essas habilidades, o que é chamado de superalinhamento. Nesse contexto, nosso artigo mergulha no domínio dos modelos de base visuais, focando no conceito de generalização de fraco para forte, que envolve o uso de um modelo mais fraco para supervisionar um mais forte, visando aprimorar as capacidades do último além dos limites do primeiro. Introduzimos uma nova função de perda ajustável de forma adaptativa para a supervisão de fraco para forte. Nossos experimentos abrangem diversos cenários, incluindo aprendizado com poucos exemplos, transferência de aprendizado, aprendizado com rótulos ruidosos e configurações comuns de destilação de conhecimento. Os resultados são impressionantes: nossa abordagem não apenas supera os benchmarks de desempenho estabelecidos pela generalização de forte para forte, mas também ultrapassa os resultados do ajuste fino de modelos fortes com conjuntos de dados completos. Essa evidência convincente destaca o potencial significativo da generalização de fraco para forte, demonstrando sua capacidade de elevar substancialmente o desempenho dos modelos de base visuais. O código está disponível em https://github.com/ggjy/vision_weak_to_strong.
English
Recent advancements in large language models have sparked interest in their
extraordinary and near-superhuman capabilities, leading researchers to explore
methods for evaluating and optimizing these abilities, which is called
superalignment. In this context, our paper delves into the realm of vision
foundation models, focusing on the concept of weak-to-strong generalization,
which involves using a weaker model to supervise a stronger one, aiming to
enhance the latter's capabilities beyond the former's limits. We introduce a
novel and adaptively adjustable loss function for weak-to-strong supervision.
Our comprehensive experiments span various scenarios, including few-shot
learning, transfer learning, noisy label learning, and common knowledge
distillation settings. The results are striking: our approach not only exceeds
the performance benchmarks set by strong-to-strong generalization but also
surpasses the outcomes of fine-tuning strong models with whole datasets. This
compelling evidence underscores the significant potential of weak-to-strong
generalization, showcasing its capability to substantially elevate the
performance of vision foundation models. The code is available at
https://github.com/ggjy/vision_weak_to_strong.