Aprendizado em Contexto de Múltiplos Exemplos em Modelos de Base Multimodais

Resumo

Grandes modelos de linguagem são amplamente reconhecidos por sua eficácia no aprendizado contextual com poucos exemplos (ICL, do inglês *in-context learning*). Avanços recentes em modelos de base multimodal têm permitido janelas de contexto excepcionalmente longas, apresentando uma oportunidade para explorar sua capacidade de realizar ICL com um número muito maior de exemplos de demonstração. Neste trabalho, avaliamos o desempenho de modelos de base multimodal ao escalar de ICL com poucos exemplos para ICL com muitos exemplos. Avaliamos o GPT-4o e o Gemini 1.5 Pro em 10 conjuntos de dados abrangendo múltiplos domínios (imagens naturais, imagens médicas, sensoriamento remoto e imagens moleculares) e tarefas (classificação multiclasse, multilabel e de granularidade fina). Observamos que o ICL com muitos exemplos, incluindo até quase 2.000 exemplos de demonstração multimodal, leva a melhorias substanciais em comparação com o ICL com poucos exemplos (<100 exemplos) em todos os conjuntos de dados. Além disso, o desempenho do Gemini 1.5 Pro continua a melhorar de forma log-linear até o número máximo de exemplos testados em muitos conjuntos de dados. Dados os altos custos de inferência associados aos prompts longos necessários para o ICL com muitos exemplos, também exploramos o impacto de agrupar múltiplas consultas em uma única chamada de API. Mostramos que o agrupamento de até 50 consultas pode levar a melhorias de desempenho sob ICL com zero exemplos e com muitos exemplos, com ganhos substanciais no cenário de zero exemplos em vários conjuntos de dados, enquanto reduz drasticamente o custo e a latência por consulta. Por fim, medimos a eficiência de dados de ICL dos modelos, ou a taxa na qual os modelos aprendem com mais exemplos de demonstração. Descobrimos que, embora o GPT-4o e o Gemini 1.5 Pro atinjam desempenhos semelhantes com zero exemplos nos conjuntos de dados, o Gemini 1.5 Pro exibe maior eficiência de dados de ICL do que o GPT-4o na maioria dos conjuntos de dados. Nossos resultados sugerem que o ICL com muitos exemplos pode permitir que os usuários adaptem de forma eficiente modelos de base multimodal a novas aplicações e domínios. Nossa base de código está publicamente disponível em https://github.com/stanfordmlgroup/ManyICL.

English

Large language models are well-known to be effective at few-shot in-context learning (ICL). Recent advancements in multimodal foundation models have enabled unprecedentedly long context windows, presenting an opportunity to explore their capability to perform ICL with many more demonstrating examples. In this work, we evaluate the performance of multimodal foundation models scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro across 10 datasets spanning multiple domains (natural imagery, medical imagery, remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and fine-grained classification). We observe that many-shot ICL, including up to almost 2,000 multimodal demonstrating examples, leads to substantial improvements compared to few-shot (<100 examples) ICL across all of the datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly up to the maximum number of tested examples on many datasets. Given the high inference costs associated with the long prompts required for many-shot ICL, we also explore the impact of batching multiple queries in a single API call. We show that batching up to 50 queries can lead to performance improvements under zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on multiple datasets, while drastically reducing per-query cost and latency. Finally, we measure ICL data efficiency of the models, or the rate at which the models learn from more demonstrating examples. We find that while GPT-4o and Gemini 1.5 Pro achieve similar zero-shot performance across the datasets, Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most datasets. Our results suggest that many-shot ICL could enable users to efficiently adapt multimodal foundation models to new applications and domains. Our codebase is publicly available at https://github.com/stanfordmlgroup/ManyICL .

Aprendizado em Contexto de Múltiplos Exemplos em Modelos de Base Multimodais

Many-Shot In-Context Learning in Multimodal Foundation Models

Resumo

Support