Superalinhamento Visual: Generalização de Fraco para Forte em Modelos de Base Visual

Resumo

Os recentes avanços em modelos de linguagem de grande escala despertaram interesse em suas capacidades extraordinárias e quase sobre-humanas, levando os pesquisadores a explorar métodos para avaliar e otimizar essas habilidades, o que é chamado de superalinhamento. Nesse contexto, nosso artigo mergulha no domínio dos modelos de base visuais, focando no conceito de generalização de fraco para forte, que envolve o uso de um modelo mais fraco para supervisionar um mais forte, visando aprimorar as capacidades do último além dos limites do primeiro. Introduzimos uma nova função de perda ajustável de forma adaptativa para a supervisão de fraco para forte. Nossos experimentos abrangem diversos cenários, incluindo aprendizado com poucos exemplos, transferência de aprendizado, aprendizado com rótulos ruidosos e configurações comuns de destilação de conhecimento. Os resultados são impressionantes: nossa abordagem não apenas supera os benchmarks de desempenho estabelecidos pela generalização de forte para forte, mas também ultrapassa os resultados do ajuste fino de modelos fortes com conjuntos de dados completos. Essa evidência convincente destaca o potencial significativo da generalização de fraco para forte, demonstrando sua capacidade de elevar substancialmente o desempenho dos modelos de base visuais. O código está disponível em https://github.com/ggjy/vision_weak_to_strong.

English

Recent advancements in large language models have sparked interest in their extraordinary and near-superhuman capabilities, leading researchers to explore methods for evaluating and optimizing these abilities, which is called superalignment. In this context, our paper delves into the realm of vision foundation models, focusing on the concept of weak-to-strong generalization, which involves using a weaker model to supervise a stronger one, aiming to enhance the latter's capabilities beyond the former's limits. We introduce a novel and adaptively adjustable loss function for weak-to-strong supervision. Our comprehensive experiments span various scenarios, including few-shot learning, transfer learning, noisy label learning, and common knowledge distillation settings. The results are striking: our approach not only exceeds the performance benchmarks set by strong-to-strong generalization but also surpasses the outcomes of fine-tuning strong models with whole datasets. This compelling evidence underscores the significant potential of weak-to-strong generalization, showcasing its capability to substantially elevate the performance of vision foundation models. The code is available at https://github.com/ggjy/vision_weak_to_strong.

Superalinhamento Visual: Generalização de Fraco para Forte em Modelos de Base Visual

Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

Resumo

Support