Veelvoudige In-Context Leren in Multimodale Fundamentmodellen

Samenvatting

Grote taalmodellen staan bekend om hun effectiviteit bij few-shot in-context learning (ICL). Recente vooruitgang in multimodale foundationmodellen heeft ongekend lange contextvensters mogelijk gemaakt, wat een kans biedt om hun vermogen te onderzoeken om ICL uit te voeren met veel meer demonstratievoorbeelden. In dit werk evalueren we de prestaties van multimodale foundationmodellen bij het schalen van few-shot naar many-shot ICL. We benchmarken GPT-4o en Gemini 1.5 Pro over 10 datasets die meerdere domeinen beslaan (natuurlijke beelden, medische beelden, remote sensing en moleculaire beelden) en taken (multi-class, multi-label en fijnmazige classificatie). We observeren dat many-shot ICL, inclusief tot bijna 2.000 multimodale demonstratievoorbeelden, leidt tot aanzienlijke verbeteringen in vergelijking met few-shot (<100 voorbeelden) ICL over alle datasets. Verder blijft de prestaties van Gemini 1.5 Pro log-lineair verbeteren tot het maximale aantal geteste voorbeelden op veel datasets. Gezien de hoge inferentiekosten die gepaard gaan met de lange prompts die nodig zijn voor many-shot ICL, onderzoeken we ook de impact van het batchgewijs verwerken van meerdere queries in één API-aanroep. We laten zien dat het batchgewijs verwerken van tot 50 queries kan leiden tot prestatieverbeteringen onder zero-shot en many-shot ICL, met aanzienlijke winsten in de zero-shot setting op meerdere datasets, terwijl de kosten en latentie per query drastisch worden verminderd. Ten slotte meten we de ICL-data-efficiëntie van de modellen, oftewel de snelheid waarmee de modellen leren van meer demonstratievoorbeelden. We constateren dat hoewel GPT-4o en Gemini 1.5 Pro vergelijkbare zero-shot prestaties behalen over de datasets, Gemini 1.5 Pro een hogere ICL-data-efficiëntie vertoont dan GPT-4o op de meeste datasets. Onze resultaten suggereren dat many-shot ICL gebruikers in staat zou kunnen stellen om multimodale foundationmodellen efficiënt aan te passen aan nieuwe toepassingen en domeinen. Onze codebase is publiekelijk beschikbaar op https://github.com/stanfordmlgroup/ManyICL.

English

Large language models are well-known to be effective at few-shot in-context learning (ICL). Recent advancements in multimodal foundation models have enabled unprecedentedly long context windows, presenting an opportunity to explore their capability to perform ICL with many more demonstrating examples. In this work, we evaluate the performance of multimodal foundation models scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro across 10 datasets spanning multiple domains (natural imagery, medical imagery, remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and fine-grained classification). We observe that many-shot ICL, including up to almost 2,000 multimodal demonstrating examples, leads to substantial improvements compared to few-shot (<100 examples) ICL across all of the datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly up to the maximum number of tested examples on many datasets. Given the high inference costs associated with the long prompts required for many-shot ICL, we also explore the impact of batching multiple queries in a single API call. We show that batching up to 50 queries can lead to performance improvements under zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on multiple datasets, while drastically reducing per-query cost and latency. Finally, we measure ICL data efficiency of the models, or the rate at which the models learn from more demonstrating examples. We find that while GPT-4o and Gemini 1.5 Pro achieve similar zero-shot performance across the datasets, Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most datasets. Our results suggest that many-shot ICL could enable users to efficiently adapt multimodal foundation models to new applications and domains. Our codebase is publicly available at https://github.com/stanfordmlgroup/ManyICL .

Veelvoudige In-Context Leren in Multimodale Fundamentmodellen

Many-Shot In-Context Learning in Multimodal Foundation Models

Samenvatting

Support