Viel-Schuss In-Context Lernen in Multimodalen Grundlagenmodellen
Many-Shot In-Context Learning in Multimodal Foundation Models
May 16, 2024
Autoren: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng
cs.AI
Zusammenfassung
Große Sprachmodelle sind bekannt dafür, effektiv beim Lernen mit wenigen Beispielen im Kontext (ICL) zu sein. Die jüngsten Fortschritte bei multimodalen Grundlagenmodellen haben unerwartet lange Kontextfenster ermöglicht, was die Möglichkeit eröffnet, ihre Fähigkeit zu untersuchen, ICL mit deutlich mehr demonstrierenden Beispielen durchzuführen. In dieser Arbeit bewerten wir die Leistung von multimodalen Grundlagenmodellen, die von wenigen Beispielen bis hin zu vielen Beispielen im ICL skalieren. Wir vergleichen GPT-4o und Gemini 1.5 Pro anhand von 10 Datensätzen, die verschiedene Bereiche abdecken (natürliche Bildgebung, medizinische Bildgebung, Fernerkundung und molekulare Bildgebung) sowie Aufgaben (Mehrklassen-, Mehrfachlabel- und feinkörnige Klassifizierung). Wir stellen fest, dass viele Beispiele im ICL, einschließlich fast 2.000 multimodaler demonstrierender Beispiele, im Vergleich zu wenigen (<100 Beispielen) ICL auf allen Datensätzen zu erheblichen Verbesserungen führen. Darüber hinaus verbessert sich die Leistung von Gemini 1.5 Pro auf vielen Datensätzen log-linear bis zur maximal getesteten Anzahl von Beispielen. Angesichts der hohen Inferenzkosten, die mit den langen Eingabeaufforderungen für das viele Beispiele umfassende ICL verbunden sind, untersuchen wir auch die Auswirkungen des Stapelns mehrerer Abfragen in einem einzelnen API-Aufruf. Wir zeigen, dass das Stapeln von bis zu 50 Abfragen zu Leistungsverbesserungen bei Null- und vielen Beispielen im ICL führen kann, mit erheblichen Gewinnen im Null-Modus auf mehreren Datensätzen, während die Kosten pro Abfrage und die Latenz drastisch reduziert werden. Schließlich messen wir die Dateneffizienz des ICL der Modelle, also die Rate, mit der die Modelle aus mehr demonstrierenden Beispielen lernen. Wir stellen fest, dass, während GPT-4o und Gemini 1.5 Pro eine ähnliche Null-Modus-Leistung auf den Datensätzen erzielen, Gemini 1.5 Pro auf den meisten Datensätzen eine höhere Dateneffizienz im ICL aufweist als GPT-4o. Unsere Ergebnisse legen nahe, dass viele Beispiele im ICL Benutzern ermöglichen könnten, multimodale Grundlagenmodelle effizient an neue Anwendungen und Bereiche anzupassen. Unser Code ist öffentlich verfügbar unter https://github.com/stanfordmlgroup/ManyICL.
English
Large language models are well-known to be effective at few-shot in-context
learning (ICL). Recent advancements in multimodal foundation models have
enabled unprecedentedly long context windows, presenting an opportunity to
explore their capability to perform ICL with many more demonstrating examples.
In this work, we evaluate the performance of multimodal foundation models
scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro
across 10 datasets spanning multiple domains (natural imagery, medical imagery,
remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and
fine-grained classification). We observe that many-shot ICL, including up to
almost 2,000 multimodal demonstrating examples, leads to substantial
improvements compared to few-shot (<100 examples) ICL across all of the
datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly
up to the maximum number of tested examples on many datasets. Given the high
inference costs associated with the long prompts required for many-shot ICL, we
also explore the impact of batching multiple queries in a single API call. We
show that batching up to 50 queries can lead to performance improvements under
zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on
multiple datasets, while drastically reducing per-query cost and latency.
Finally, we measure ICL data efficiency of the models, or the rate at which the
models learn from more demonstrating examples. We find that while GPT-4o and
Gemini 1.5 Pro achieve similar zero-shot performance across the datasets,
Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most
datasets. Our results suggest that many-shot ICL could enable users to
efficiently adapt multimodal foundation models to new applications and domains.
Our codebase is publicly available at
https://github.com/stanfordmlgroup/ManyICL .Summary
AI-Generated Summary