Vision Superalignment: Обобщение от слабого к сильному для базовых моделей компьютерного зрения

Аннотация

Последние достижения в области больших языковых моделей вызвали интерес к их исключительным и почти сверхчеловеческим способностям, что побудило исследователей изучить методы оценки и оптимизации этих возможностей, получившие название супервыравнивания. В этом контексте наша работа углубляется в область базовых моделей компьютерного зрения, сосредотачиваясь на концепции обобщения от слабого к сильному, которая предполагает использование более слабой модели для обучения более сильной с целью расширения возможностей последней за пределы, достижимые первой. Мы представляем новую и адаптивно настраиваемую функцию потерь для обучения от слабого к сильному. Наши всесторонние эксперименты охватывают различные сценарии, включая обучение с малым количеством данных, трансферное обучение, обучение с зашумленными метками и стандартные настройки дистилляции знаний. Результаты впечатляют: наш подход не только превосходит эталонные показатели, установленные обобщением от сильного к сильному, но и превышает результаты тонкой настройки сильных моделей на полных наборах данных. Эти убедительные данные подчеркивают значительный потенциал обобщения от слабого к сильному, демонстрируя его способность существенно повышать производительность базовых моделей компьютерного зрения. Код доступен по адресу https://github.com/ggjy/vision_weak_to_strong.

English

Recent advancements in large language models have sparked interest in their extraordinary and near-superhuman capabilities, leading researchers to explore methods for evaluating and optimizing these abilities, which is called superalignment. In this context, our paper delves into the realm of vision foundation models, focusing on the concept of weak-to-strong generalization, which involves using a weaker model to supervise a stronger one, aiming to enhance the latter's capabilities beyond the former's limits. We introduce a novel and adaptively adjustable loss function for weak-to-strong supervision. Our comprehensive experiments span various scenarios, including few-shot learning, transfer learning, noisy label learning, and common knowledge distillation settings. The results are striking: our approach not only exceeds the performance benchmarks set by strong-to-strong generalization but also surpasses the outcomes of fine-tuning strong models with whole datasets. This compelling evidence underscores the significant potential of weak-to-strong generalization, showcasing its capability to substantially elevate the performance of vision foundation models. The code is available at https://github.com/ggjy/vision_weak_to_strong.

Vision Superalignment: Обобщение от слабого к сильному для базовых моделей компьютерного зрения

Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

Аннотация

Support