Aprendizado em Contexto de Múltiplos Exemplos em Modelos de Base Multimodais
Many-Shot In-Context Learning in Multimodal Foundation Models
May 16, 2024
Autores: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng
cs.AI
Resumo
Grandes modelos de linguagem são amplamente reconhecidos por sua eficácia no aprendizado contextual com poucos exemplos (ICL, do inglês *in-context learning*). Avanços recentes em modelos de base multimodal têm permitido janelas de contexto excepcionalmente longas, apresentando uma oportunidade para explorar sua capacidade de realizar ICL com um número muito maior de exemplos de demonstração. Neste trabalho, avaliamos o desempenho de modelos de base multimodal ao escalar de ICL com poucos exemplos para ICL com muitos exemplos. Avaliamos o GPT-4o e o Gemini 1.5 Pro em 10 conjuntos de dados abrangendo múltiplos domínios (imagens naturais, imagens médicas, sensoriamento remoto e imagens moleculares) e tarefas (classificação multiclasse, multilabel e de granularidade fina). Observamos que o ICL com muitos exemplos, incluindo até quase 2.000 exemplos de demonstração multimodal, leva a melhorias substanciais em comparação com o ICL com poucos exemplos (<100 exemplos) em todos os conjuntos de dados. Além disso, o desempenho do Gemini 1.5 Pro continua a melhorar de forma log-linear até o número máximo de exemplos testados em muitos conjuntos de dados. Dados os altos custos de inferência associados aos prompts longos necessários para o ICL com muitos exemplos, também exploramos o impacto de agrupar múltiplas consultas em uma única chamada de API. Mostramos que o agrupamento de até 50 consultas pode levar a melhorias de desempenho sob ICL com zero exemplos e com muitos exemplos, com ganhos substanciais no cenário de zero exemplos em vários conjuntos de dados, enquanto reduz drasticamente o custo e a latência por consulta. Por fim, medimos a eficiência de dados de ICL dos modelos, ou a taxa na qual os modelos aprendem com mais exemplos de demonstração. Descobrimos que, embora o GPT-4o e o Gemini 1.5 Pro atinjam desempenhos semelhantes com zero exemplos nos conjuntos de dados, o Gemini 1.5 Pro exibe maior eficiência de dados de ICL do que o GPT-4o na maioria dos conjuntos de dados. Nossos resultados sugerem que o ICL com muitos exemplos pode permitir que os usuários adaptem de forma eficiente modelos de base multimodal a novas aplicações e domínios. Nossa base de código está publicamente disponível em https://github.com/stanfordmlgroup/ManyICL.
English
Large language models are well-known to be effective at few-shot in-context
learning (ICL). Recent advancements in multimodal foundation models have
enabled unprecedentedly long context windows, presenting an opportunity to
explore their capability to perform ICL with many more demonstrating examples.
In this work, we evaluate the performance of multimodal foundation models
scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro
across 10 datasets spanning multiple domains (natural imagery, medical imagery,
remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and
fine-grained classification). We observe that many-shot ICL, including up to
almost 2,000 multimodal demonstrating examples, leads to substantial
improvements compared to few-shot (<100 examples) ICL across all of the
datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly
up to the maximum number of tested examples on many datasets. Given the high
inference costs associated with the long prompts required for many-shot ICL, we
also explore the impact of batching multiple queries in a single API call. We
show that batching up to 50 queries can lead to performance improvements under
zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on
multiple datasets, while drastically reducing per-query cost and latency.
Finally, we measure ICL data efficiency of the models, or the rate at which the
models learn from more demonstrating examples. We find that while GPT-4o and
Gemini 1.5 Pro achieve similar zero-shot performance across the datasets,
Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most
datasets. Our results suggest that many-shot ICL could enable users to
efficiently adapt multimodal foundation models to new applications and domains.
Our codebase is publicly available at
https://github.com/stanfordmlgroup/ManyICL .