ChatPaper.aiChatPaper

Apprendimento In-Context a Molti Esempi nei Modelli Fondamentali Multimodali

Many-Shot In-Context Learning in Multimodal Foundation Models

May 16, 2024
Autori: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng
cs.AI

Abstract

È ben noto che i grandi modelli linguistici sono efficaci nell'apprendimento in-context con pochi esempi (ICL). I recenti progressi nei modelli fondazionali multimodali hanno permesso finestre di contesto di lunghezza senza precedenti, offrendo l'opportunità di esplorare la loro capacità di eseguire ICL con un numero molto maggiore di esempi dimostrativi. In questo lavoro, valutiamo le prestazioni dei modelli fondazionali multimodali passando dall'ICL con pochi esempi a quello con molti esempi. Confrontiamo GPT-4o e Gemini 1.5 Pro su 10 dataset che coprono diversi domini (immagini naturali, immagini mediche, telerilevamento e immagini molecolari) e task (classificazione multi-classe, multi-label e fine-grained). Osserviamo che l'ICL con molti esempi, fino a quasi 2.000 esempi multimodali dimostrativi, porta a miglioramenti sostanziali rispetto all'ICL con pochi esempi (<100 esempi) su tutti i dataset. Inoltre, le prestazioni di Gemini 1.5 Pro continuano a migliorare in modo log-lineare fino al numero massimo di esempi testati su molti dataset. Considerando gli elevati costi di inferenza associati ai prompt lunghi necessari per l'ICL con molti esempi, esploriamo anche l'impatto del raggruppamento di più query in una singola chiamata API. Mostriamo che raggruppare fino a 50 query può portare a miglioramenti delle prestazioni sia in condizioni zero-shot che many-shot ICL, con guadagni sostanziali nello scenario zero-shot su più dataset, riducendo drasticamente il costo e la latenza per query. Infine, misuriamo l'efficienza dei dati ICL dei modelli, ovvero la velocità con cui i modelli apprendono da un numero crescente di esempi dimostrativi. Troviamo che, sebbene GPT-4o e Gemini 1.5 Pro raggiungano prestazioni zero-shot simili sui dataset, Gemini 1.5 Pro mostra un'efficienza dei dati ICL superiore rispetto a GPT-4o sulla maggior parte dei dataset. I nostri risultati suggeriscono che l'ICL con molti esempi potrebbe consentire agli utenti di adattare in modo efficiente i modelli fondazionali multimodali a nuove applicazioni e domini. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/stanfordmlgroup/ManyICL.
English
Large language models are well-known to be effective at few-shot in-context learning (ICL). Recent advancements in multimodal foundation models have enabled unprecedentedly long context windows, presenting an opportunity to explore their capability to perform ICL with many more demonstrating examples. In this work, we evaluate the performance of multimodal foundation models scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro across 10 datasets spanning multiple domains (natural imagery, medical imagery, remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and fine-grained classification). We observe that many-shot ICL, including up to almost 2,000 multimodal demonstrating examples, leads to substantial improvements compared to few-shot (<100 examples) ICL across all of the datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly up to the maximum number of tested examples on many datasets. Given the high inference costs associated with the long prompts required for many-shot ICL, we also explore the impact of batching multiple queries in a single API call. We show that batching up to 50 queries can lead to performance improvements under zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on multiple datasets, while drastically reducing per-query cost and latency. Finally, we measure ICL data efficiency of the models, or the rate at which the models learn from more demonstrating examples. We find that while GPT-4o and Gemini 1.5 Pro achieve similar zero-shot performance across the datasets, Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most datasets. Our results suggest that many-shot ICL could enable users to efficiently adapt multimodal foundation models to new applications and domains. Our codebase is publicly available at https://github.com/stanfordmlgroup/ManyICL .
PDF323December 15, 2024