ビジョン超アライメント:ビジョン基盤モデルのための弱から強への汎化
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models
February 6, 2024
著者: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI
要旨
大規模言語モデルの最近の進歩は、その並外れた超人級の能力に注目を集め、研究者たちがこれらの能力を評価・最適化する方法、いわゆる「スーパーアライメント」を探求するきっかけとなりました。この文脈において、本論文は視覚基盤モデルの領域に深く入り込み、「弱いモデルから強いモデルへの一般化」という概念に焦点を当てています。これは、弱いモデルを使用して強いモデルを監督し、後者の能力を前者の限界を超えて向上させることを目指すものです。我々は、弱いモデルから強いモデルへの監督のための新規で適応的に調整可能な損失関数を導入します。我々の包括的な実験は、Few-shot学習、転移学習、ノイジーラベル学習、一般的な知識蒸縮設定など、さまざまなシナリオに及びます。結果は驚くべきもので、我々のアプローチは、強いモデルから強いモデルへの一般化によって設定された性能ベンチマークを上回るだけでなく、データセット全体を使用して強いモデルをファインチューニングした結果をも凌駕しました。この説得力のある証拠は、弱いモデルから強いモデルへの一般化が視覚基盤モデルの性能を大幅に向上させる能力を持つという重要な可能性を強調しています。コードはhttps://github.com/ggjy/vision_weak_to_strongで公開されています。
English
Recent advancements in large language models have sparked interest in their
extraordinary and near-superhuman capabilities, leading researchers to explore
methods for evaluating and optimizing these abilities, which is called
superalignment. In this context, our paper delves into the realm of vision
foundation models, focusing on the concept of weak-to-strong generalization,
which involves using a weaker model to supervise a stronger one, aiming to
enhance the latter's capabilities beyond the former's limits. We introduce a
novel and adaptively adjustable loss function for weak-to-strong supervision.
Our comprehensive experiments span various scenarios, including few-shot
learning, transfer learning, noisy label learning, and common knowledge
distillation settings. The results are striking: our approach not only exceeds
the performance benchmarks set by strong-to-strong generalization but also
surpasses the outcomes of fine-tuning strong models with whole datasets. This
compelling evidence underscores the significant potential of weak-to-strong
generalization, showcasing its capability to substantially elevate the
performance of vision foundation models. The code is available at
https://github.com/ggjy/vision_weak_to_strong.