Aprendizaje en contexto de múltiples ejemplos en modelos fundacionales multimodales.
Many-Shot In-Context Learning in Multimodal Foundation Models
May 16, 2024
Autores: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng
cs.AI
Resumen
Los modelos de lenguaje grandes son ampliamente reconocidos por su eficacia en el aprendizaje en contexto con pocos ejemplos (ICL, por sus siglas en inglés). Los avances recientes en los modelos fundacionales multimodales han permitido ventanas de contexto de una longitud sin precedentes, lo que presenta una oportunidad para explorar su capacidad para realizar ICL con muchos más ejemplos demostrativos. En este trabajo, evaluamos el rendimiento de los modelos fundacionales multimodales al escalar desde ICL con pocos ejemplos hasta ICL con muchos ejemplos. Realizamos pruebas comparativas de GPT-4o y Gemini 1.5 Pro en 10 conjuntos de datos que abarcan múltiples dominios (imágenes naturales, imágenes médicas, percepción remota e imágenes moleculares) y tareas (clasificación multiclase, multietiqueta y de grano fino). Observamos que el ICL con muchos ejemplos, incluyendo hasta casi 2,000 ejemplos demostrativos multimodales, conduce a mejoras sustanciales en comparación con el ICL con pocos ejemplos (<100 ejemplos) en todos los conjuntos de datos. Además, el rendimiento de Gemini 1.5 Pro continúa mejorando de manera log-lineal hasta el número máximo de ejemplos probados en muchos conjuntos de datos. Dados los altos costos de inferencia asociados con los largos mensajes requeridos para el ICL con muchos ejemplos, también exploramos el impacto de agrupar múltiples consultas en una sola llamada API. Demostramos que agrupar hasta 50 consultas puede conducir a mejoras en el rendimiento tanto en el ICL con cero ejemplos como con muchos ejemplos, con ganancias sustanciales en el escenario de cero ejemplos en múltiples conjuntos de datos, mientras se reduce drásticamente el costo y la latencia por consulta. Finalmente, medimos la eficiencia de datos en ICL de los modelos, o la tasa a la que los modelos aprenden de más ejemplos demostrativos. Encontramos que, aunque GPT-4o y Gemini 1.5 Pro logran un rendimiento similar en el escenario de cero ejemplos en los conjuntos de datos, Gemini 1.5 Pro exhibe una mayor eficiencia de datos en ICL que GPT-4o en la mayoría de los conjuntos de datos. Nuestros resultados sugieren que el ICL con muchos ejemplos podría permitir a los usuarios adaptar eficientemente los modelos fundacionales multimodales a nuevas aplicaciones y dominios. Nuestro código está disponible públicamente en https://github.com/stanfordmlgroup/ManyICL.
English
Large language models are well-known to be effective at few-shot in-context
learning (ICL). Recent advancements in multimodal foundation models have
enabled unprecedentedly long context windows, presenting an opportunity to
explore their capability to perform ICL with many more demonstrating examples.
In this work, we evaluate the performance of multimodal foundation models
scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro
across 10 datasets spanning multiple domains (natural imagery, medical imagery,
remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and
fine-grained classification). We observe that many-shot ICL, including up to
almost 2,000 multimodal demonstrating examples, leads to substantial
improvements compared to few-shot (<100 examples) ICL across all of the
datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly
up to the maximum number of tested examples on many datasets. Given the high
inference costs associated with the long prompts required for many-shot ICL, we
also explore the impact of batching multiple queries in a single API call. We
show that batching up to 50 queries can lead to performance improvements under
zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on
multiple datasets, while drastically reducing per-query cost and latency.
Finally, we measure ICL data efficiency of the models, or the rate at which the
models learn from more demonstrating examples. We find that while GPT-4o and
Gemini 1.5 Pro achieve similar zero-shot performance across the datasets,
Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most
datasets. Our results suggest that many-shot ICL could enable users to
efficiently adapt multimodal foundation models to new applications and domains.
Our codebase is publicly available at
https://github.com/stanfordmlgroup/ManyICL .Summary
AI-Generated Summary