Vision Superalignment: Обобщение от слабого к сильному для базовых моделей компьютерного зрения
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models
February 6, 2024
Авторы: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI
Аннотация
Последние достижения в области больших языковых моделей вызвали интерес к их исключительным и почти сверхчеловеческим способностям, что побудило исследователей изучить методы оценки и оптимизации этих возможностей, получившие название супервыравнивания. В этом контексте наша работа углубляется в область базовых моделей компьютерного зрения, сосредотачиваясь на концепции обобщения от слабого к сильному, которая предполагает использование более слабой модели для обучения более сильной с целью расширения возможностей последней за пределы, достижимые первой. Мы представляем новую и адаптивно настраиваемую функцию потерь для обучения от слабого к сильному. Наши всесторонние эксперименты охватывают различные сценарии, включая обучение с малым количеством данных, трансферное обучение, обучение с зашумленными метками и стандартные настройки дистилляции знаний. Результаты впечатляют: наш подход не только превосходит эталонные показатели, установленные обобщением от сильного к сильному, но и превышает результаты тонкой настройки сильных моделей на полных наборах данных. Эти убедительные данные подчеркивают значительный потенциал обобщения от слабого к сильному, демонстрируя его способность существенно повышать производительность базовых моделей компьютерного зрения. Код доступен по адресу https://github.com/ggjy/vision_weak_to_strong.
English
Recent advancements in large language models have sparked interest in their
extraordinary and near-superhuman capabilities, leading researchers to explore
methods for evaluating and optimizing these abilities, which is called
superalignment. In this context, our paper delves into the realm of vision
foundation models, focusing on the concept of weak-to-strong generalization,
which involves using a weaker model to supervise a stronger one, aiming to
enhance the latter's capabilities beyond the former's limits. We introduce a
novel and adaptively adjustable loss function for weak-to-strong supervision.
Our comprehensive experiments span various scenarios, including few-shot
learning, transfer learning, noisy label learning, and common knowledge
distillation settings. The results are striking: our approach not only exceeds
the performance benchmarks set by strong-to-strong generalization but also
surpasses the outcomes of fine-tuning strong models with whole datasets. This
compelling evidence underscores the significant potential of weak-to-strong
generalization, showcasing its capability to substantially elevate the
performance of vision foundation models. The code is available at
https://github.com/ggjy/vision_weak_to_strong.