ChatPaper.aiChatPaper

Vision Superalignment: Schwach-starke Generalisierung für visuelle Foundation-Modelle

Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

February 6, 2024
Autoren: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen haben das Interesse an ihren außergewöhnlichen und nahezu übermenschlichen Fähigkeiten geweckt, was Forscher dazu veranlasst, Methoden zur Bewertung und Optimierung dieser Fähigkeiten zu untersuchen, ein Prozess, der als Superalignment bezeichnet wird. In diesem Kontext taucht unser Papier in den Bereich der Vision-Foundation-Modelle ein und konzentriert sich auf das Konzept der schwachen-zu-starken Generalisierung, bei der ein schwächeres Modell zur Überwachung eines stärkeren Modells verwendet wird, mit dem Ziel, die Fähigkeiten des letzteren über die Grenzen des ersteren hinaus zu steigern. Wir führen eine neuartige und adaptiv anpassbare Verlustfunktion für die schwache-zu-starke Überwachung ein. Unsere umfassenden Experimente umfassen verschiedene Szenarien, darunter Few-Shot-Lernen, Transferlernen, Lernen mit verrauschten Labels und gängige Wissensdistillationsszenarien. Die Ergebnisse sind beeindruckend: Unser Ansatz übertrifft nicht nur die Leistungsbenchmarks, die durch starke-zu-starke Generalisierung gesetzt wurden, sondern übertrifft auch die Ergebnisse des Feinabstimmens starker Modelle mit vollständigen Datensätzen. Diese überzeugenden Beweise unterstreichen das erhebliche Potenzial der schwachen-zu-starken Generalisierung und zeigen ihre Fähigkeit, die Leistung von Vision-Foundation-Modellen erheblich zu steigern. Der Code ist verfügbar unter https://github.com/ggjy/vision_weak_to_strong.
English
Recent advancements in large language models have sparked interest in their extraordinary and near-superhuman capabilities, leading researchers to explore methods for evaluating and optimizing these abilities, which is called superalignment. In this context, our paper delves into the realm of vision foundation models, focusing on the concept of weak-to-strong generalization, which involves using a weaker model to supervise a stronger one, aiming to enhance the latter's capabilities beyond the former's limits. We introduce a novel and adaptively adjustable loss function for weak-to-strong supervision. Our comprehensive experiments span various scenarios, including few-shot learning, transfer learning, noisy label learning, and common knowledge distillation settings. The results are striking: our approach not only exceeds the performance benchmarks set by strong-to-strong generalization but also surpasses the outcomes of fine-tuning strong models with whole datasets. This compelling evidence underscores the significant potential of weak-to-strong generalization, showcasing its capability to substantially elevate the performance of vision foundation models. The code is available at https://github.com/ggjy/vision_weak_to_strong.
PDF131December 15, 2024