TransAgent: Trasferimento di modelli di base di visione-linguaggio con collaborazione di agenti eterogenei

Abstract

I modelli fondamentali visione-linguaggio (come CLIP) hanno recentemente mostrato la loro potenza nel trasferimento di apprendimento, grazie al pre-addestramento su larga scala di immagini e testi. Tuttavia, i dati del dominio di destinazione nei compiti successivi possono essere molto diversi dalla fase di pre-addestramento, rendendo difficile per un singolo modello generalizzare bene. Alternativamente, esiste una vasta gamma di modelli esperti che contengono conoscenze di visione e/o linguaggio diversificate pre-addestrate su diverse modalità, compiti, reti e insiemi di dati. Purtroppo, questi modelli sono "agenti isolati" con strutture eterogenee, e come integrare le loro conoscenze per generalizzare modelli simili a CLIP non è stato completamente esplorato. Per colmare questa lacuna, proponiamo un framework TransAgent generale e conciso, che trasporta le conoscenze degli agenti isolati in modo unificato e guida efficacemente CLIP a generalizzare con distillazione di conoscenze da più fonti. Con un framework così distinto, collaboriamo in modo flessibile con 11 agenti eterogenei per potenziare i modelli fondamentali visione-linguaggio, senza ulteriori costi nella fase di inferenza. Infine, il nostro TransAgent raggiunge prestazioni all'avanguardia su 11 set di dati di riconoscimento visivo. Nello stesso contesto di pochi esempi, supera il popolare CoOp di circa il 10% in media e del 20% su EuroSAT che contiene ampi spostamenti di dominio.

English

Vision-language foundation models (such as CLIP) have recently shown their power in transfer learning, owing to large-scale image-text pre-training. However, target domain data in the downstream tasks can be highly different from the pre-training phase, which makes it hard for such a single model to generalize well. Alternatively, there exists a wide range of expert models that contain diversified vision and/or language knowledge pre-trained on different modalities, tasks, networks, and datasets. Unfortunately, these models are "isolated agents" with heterogeneous structures, and how to integrate their knowledge for generalizing CLIP-like models has not been fully explored. To bridge this gap, we propose a general and concise TransAgent framework, which transports the knowledge of the isolated agents in a unified manner, and effectively guides CLIP to generalize with multi-source knowledge distillation. With such a distinct framework, we flexibly collaborate with 11 heterogeneous agents to empower vision-language foundation models, without further cost in the inference phase. Finally, our TransAgent achieves state-of-the-art performance on 11 visual recognition datasets. Under the same low-shot setting, it outperforms the popular CoOp with around 10% on average, and 20% on EuroSAT which contains large domain shifts.

TransAgent: Trasferimento di modelli di base di visione-linguaggio con collaborazione di agenti eterogenei

TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Abstract

Summary

Support

Support