ChatPaper.aiChatPaper

Apprentissage en contexte à nombreux exemples dans les modèles fondateurs multimodaux

Many-Shot In-Context Learning in Multimodal Foundation Models

May 16, 2024
Auteurs: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng
cs.AI

Résumé

Les grands modèles de langage sont reconnus pour leur efficacité dans l'apprentissage en contexte avec peu d'exemples (ICL, in-context learning). Les avancées récentes dans les modèles fondationnels multimodaux ont permis des fenêtres de contexte d'une longueur sans précédent, offrant ainsi l'opportunité d'explorer leur capacité à réaliser l'ICL avec un nombre bien plus élevé d'exemples démonstratifs. Dans ce travail, nous évaluons la performance des modèles fondationnels multimodaux en passant de l'ICL avec peu d'exemples à l'ICL avec de nombreux exemples. Nous comparons GPT-4o et Gemini 1.5 Pro sur 10 jeux de données couvrant plusieurs domaines (imagerie naturelle, imagerie médicale, télédétection et imagerie moléculaire) et tâches (classification multi-classes, multi-labels et fine). Nous observons que l'ICL avec de nombreux exemples, incluant jusqu'à près de 2 000 exemples multimodaux, entraîne des améliorations substantielles par rapport à l'ICL avec peu d'exemples (<100 exemples) sur tous les jeux de données. De plus, la performance de Gemini 1.5 Pro continue de s'améliorer de manière log-linéaire jusqu'au nombre maximal d'exemples testés sur de nombreux jeux de données. Étant donné les coûts d'inférence élevés associés aux longs prompts requis pour l'ICL avec de nombreux exemples, nous explorons également l'impact du regroupement de plusieurs requêtes dans un seul appel API. Nous montrons que le regroupement de jusqu'à 50 requêtes peut entraîner des améliorations de performance dans les contextes zéro-shot et many-shot ICL, avec des gains substantiels dans le cadre zéro-shot sur plusieurs jeux de données, tout en réduisant drastiquement le coût et la latence par requête. Enfin, nous mesurons l'efficacité des modèles en termes de données ICL, c'est-à-dire la vitesse à laquelle les modèles apprennent à partir de plus d'exemples démonstratifs. Nous constatons que si GPT-4o et Gemini 1.5 Pro atteignent des performances similaires en zéro-shot sur les jeux de données, Gemini 1.5 Pro présente une efficacité des données ICL supérieure à celle de GPT-4o sur la plupart des jeux de données. Nos résultats suggèrent que l'ICL avec de nombreux exemples pourrait permettre aux utilisateurs d'adapter efficacement les modèles fondationnels multimodaux à de nouvelles applications et domaines. Notre codebase est disponible publiquement à l'adresse suivante : https://github.com/stanfordmlgroup/ManyICL.
English
Large language models are well-known to be effective at few-shot in-context learning (ICL). Recent advancements in multimodal foundation models have enabled unprecedentedly long context windows, presenting an opportunity to explore their capability to perform ICL with many more demonstrating examples. In this work, we evaluate the performance of multimodal foundation models scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro across 10 datasets spanning multiple domains (natural imagery, medical imagery, remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and fine-grained classification). We observe that many-shot ICL, including up to almost 2,000 multimodal demonstrating examples, leads to substantial improvements compared to few-shot (<100 examples) ICL across all of the datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly up to the maximum number of tested examples on many datasets. Given the high inference costs associated with the long prompts required for many-shot ICL, we also explore the impact of batching multiple queries in a single API call. We show that batching up to 50 queries can lead to performance improvements under zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on multiple datasets, while drastically reducing per-query cost and latency. Finally, we measure ICL data efficiency of the models, or the rate at which the models learn from more demonstrating examples. We find that while GPT-4o and Gemini 1.5 Pro achieve similar zero-shot performance across the datasets, Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most datasets. Our results suggest that many-shot ICL could enable users to efficiently adapt multimodal foundation models to new applications and domains. Our codebase is publicly available at https://github.com/stanfordmlgroup/ManyICL .

Summary

AI-Generated Summary

PDF333December 15, 2024