Superalineación Visual: Generalización de Débil a Fuerte para Modelos Fundamentales de Visión
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models
February 6, 2024
Autores: Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala han despertado interés por sus capacidades extraordinarias y casi sobrehumanas, lo que ha llevado a los investigadores a explorar métodos para evaluar y optimizar estas habilidades, un área conocida como superalineación. En este contexto, nuestro artículo se adentra en el ámbito de los modelos fundamentales de visión, centrándose en el concepto de generalización de débil a fuerte, que implica utilizar un modelo más débil para supervisar a uno más fuerte, con el objetivo de mejorar las capacidades de este último más allá de los límites del primero. Introducimos una función de pérdida novedosa y adaptable para la supervisión de débil a fuerte. Nuestros experimentos exhaustivos abarcan diversos escenarios, incluyendo aprendizaje con pocos ejemplos, transferencia de aprendizaje, aprendizaje con etiquetas ruidosas y configuraciones comunes de destilación de conocimiento. Los resultados son sorprendentes: nuestro enfoque no solo supera los puntos de referencia de rendimiento establecidos por la generalización de fuerte a fuerte, sino que también supera los resultados del ajuste fino de modelos fuertes con conjuntos de datos completos. Esta evidencia convincente subraya el potencial significativo de la generalización de débil a fuerte, demostrando su capacidad para elevar sustancialmente el rendimiento de los modelos fundamentales de visión. El código está disponible en https://github.com/ggjy/vision_weak_to_strong.
English
Recent advancements in large language models have sparked interest in their
extraordinary and near-superhuman capabilities, leading researchers to explore
methods for evaluating and optimizing these abilities, which is called
superalignment. In this context, our paper delves into the realm of vision
foundation models, focusing on the concept of weak-to-strong generalization,
which involves using a weaker model to supervise a stronger one, aiming to
enhance the latter's capabilities beyond the former's limits. We introduce a
novel and adaptively adjustable loss function for weak-to-strong supervision.
Our comprehensive experiments span various scenarios, including few-shot
learning, transfer learning, noisy label learning, and common knowledge
distillation settings. The results are striking: our approach not only exceeds
the performance benchmarks set by strong-to-strong generalization but also
surpasses the outcomes of fine-tuning strong models with whole datasets. This
compelling evidence underscores the significant potential of weak-to-strong
generalization, showcasing its capability to substantially elevate the
performance of vision foundation models. The code is available at
https://github.com/ggjy/vision_weak_to_strong.