TransAgent: Trasferimento di modelli di base di visione-linguaggio con collaborazione di agenti eterogenei
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration
October 16, 2024
Autori: Yiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang
cs.AI
Abstract
I modelli fondamentali visione-linguaggio (come CLIP) hanno recentemente mostrato la loro potenza nel trasferimento di apprendimento, grazie al pre-addestramento su larga scala di immagini e testi. Tuttavia, i dati del dominio di destinazione nei compiti successivi possono essere molto diversi dalla fase di pre-addestramento, rendendo difficile per un singolo modello generalizzare bene. Alternativamente, esiste una vasta gamma di modelli esperti che contengono conoscenze di visione e/o linguaggio diversificate pre-addestrate su diverse modalità, compiti, reti e insiemi di dati. Purtroppo, questi modelli sono "agenti isolati" con strutture eterogenee, e come integrare le loro conoscenze per generalizzare modelli simili a CLIP non è stato completamente esplorato. Per colmare questa lacuna, proponiamo un framework TransAgent generale e conciso, che trasporta le conoscenze degli agenti isolati in modo unificato e guida efficacemente CLIP a generalizzare con distillazione di conoscenze da più fonti. Con un framework così distinto, collaboriamo in modo flessibile con 11 agenti eterogenei per potenziare i modelli fondamentali visione-linguaggio, senza ulteriori costi nella fase di inferenza. Infine, il nostro TransAgent raggiunge prestazioni all'avanguardia su 11 set di dati di riconoscimento visivo. Nello stesso contesto di pochi esempi, supera il popolare CoOp di circa il 10% in media e del 20% su EuroSAT che contiene ampi spostamenti di dominio.
English
Vision-language foundation models (such as CLIP) have recently shown their
power in transfer learning, owing to large-scale image-text pre-training.
However, target domain data in the downstream tasks can be highly different
from the pre-training phase, which makes it hard for such a single model to
generalize well. Alternatively, there exists a wide range of expert models that
contain diversified vision and/or language knowledge pre-trained on different
modalities, tasks, networks, and datasets. Unfortunately, these models are
"isolated agents" with heterogeneous structures, and how to integrate their
knowledge for generalizing CLIP-like models has not been fully explored. To
bridge this gap, we propose a general and concise TransAgent framework, which
transports the knowledge of the isolated agents in a unified manner, and
effectively guides CLIP to generalize with multi-source knowledge distillation.
With such a distinct framework, we flexibly collaborate with 11 heterogeneous
agents to empower vision-language foundation models, without further cost in
the inference phase. Finally, our TransAgent achieves state-of-the-art
performance on 11 visual recognition datasets. Under the same low-shot setting,
it outperforms the popular CoOp with around 10% on average, and 20% on EuroSAT
which contains large domain shifts.Summary
AI-Generated Summary