Vision Superalignment: Generalizzazione da Debole a Forte per Modelli di Base Visivi
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models
February 6, 2024
Autori: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni hanno suscitato interesse per le loro straordinarie e quasi sovrumane capacità, portando i ricercatori a esplorare metodi per valutare e ottimizzare queste abilità, un ambito noto come superallineamento. In questo contesto, il nostro articolo si addentra nel campo dei modelli di base per la visione, concentrandosi sul concetto di generalizzazione da debole a forte, che prevede l'uso di un modello più debole per supervisionarne uno più forte, con l'obiettivo di migliorare le capacità di quest'ultimo oltre i limiti del primo. Introduciamo una nuova funzione di perdita adattivamente regolabile per la supervisione da debole a forte. I nostri esperimenti completi coprono vari scenari, tra cui apprendimento con pochi esempi, trasferimento di conoscenza, apprendimento con etichette rumorose e impostazioni comuni di distillazione della conoscenza. I risultati sono sorprendenti: il nostro approccio non solo supera i benchmark di prestazioni stabiliti dalla generalizzazione da forte a forte, ma supera anche i risultati ottenuti affinando modelli forti con interi dataset. Questa evidenza convincente sottolinea il significativo potenziale della generalizzazione da debole a forte, dimostrando la sua capacità di elevare sostanzialmente le prestazioni dei modelli di base per la visione. Il codice è disponibile all'indirizzo https://github.com/ggjy/vision_weak_to_strong.
English
Recent advancements in large language models have sparked interest in their
extraordinary and near-superhuman capabilities, leading researchers to explore
methods for evaluating and optimizing these abilities, which is called
superalignment. In this context, our paper delves into the realm of vision
foundation models, focusing on the concept of weak-to-strong generalization,
which involves using a weaker model to supervise a stronger one, aiming to
enhance the latter's capabilities beyond the former's limits. We introduce a
novel and adaptively adjustable loss function for weak-to-strong supervision.
Our comprehensive experiments span various scenarios, including few-shot
learning, transfer learning, noisy label learning, and common knowledge
distillation settings. The results are striking: our approach not only exceeds
the performance benchmarks set by strong-to-strong generalization but also
surpasses the outcomes of fine-tuning strong models with whole datasets. This
compelling evidence underscores the significant potential of weak-to-strong
generalization, showcasing its capability to substantially elevate the
performance of vision foundation models. The code is available at
https://github.com/ggjy/vision_weak_to_strong.