Aprendizaje en contexto de múltiples ejemplos en modelos fundacionales multimodales.

Resumen

Los modelos de lenguaje grandes son ampliamente reconocidos por su eficacia en el aprendizaje en contexto con pocos ejemplos (ICL, por sus siglas en inglés). Los avances recientes en los modelos fundacionales multimodales han permitido ventanas de contexto de una longitud sin precedentes, lo que presenta una oportunidad para explorar su capacidad para realizar ICL con muchos más ejemplos demostrativos. En este trabajo, evaluamos el rendimiento de los modelos fundacionales multimodales al escalar desde ICL con pocos ejemplos hasta ICL con muchos ejemplos. Realizamos pruebas comparativas de GPT-4o y Gemini 1.5 Pro en 10 conjuntos de datos que abarcan múltiples dominios (imágenes naturales, imágenes médicas, percepción remota e imágenes moleculares) y tareas (clasificación multiclase, multietiqueta y de grano fino). Observamos que el ICL con muchos ejemplos, incluyendo hasta casi 2,000 ejemplos demostrativos multimodales, conduce a mejoras sustanciales en comparación con el ICL con pocos ejemplos (<100 ejemplos) en todos los conjuntos de datos. Además, el rendimiento de Gemini 1.5 Pro continúa mejorando de manera log-lineal hasta el número máximo de ejemplos probados en muchos conjuntos de datos. Dados los altos costos de inferencia asociados con los largos mensajes requeridos para el ICL con muchos ejemplos, también exploramos el impacto de agrupar múltiples consultas en una sola llamada API. Demostramos que agrupar hasta 50 consultas puede conducir a mejoras en el rendimiento tanto en el ICL con cero ejemplos como con muchos ejemplos, con ganancias sustanciales en el escenario de cero ejemplos en múltiples conjuntos de datos, mientras se reduce drásticamente el costo y la latencia por consulta. Finalmente, medimos la eficiencia de datos en ICL de los modelos, o la tasa a la que los modelos aprenden de más ejemplos demostrativos. Encontramos que, aunque GPT-4o y Gemini 1.5 Pro logran un rendimiento similar en el escenario de cero ejemplos en los conjuntos de datos, Gemini 1.5 Pro exhibe una mayor eficiencia de datos en ICL que GPT-4o en la mayoría de los conjuntos de datos. Nuestros resultados sugieren que el ICL con muchos ejemplos podría permitir a los usuarios adaptar eficientemente los modelos fundacionales multimodales a nuevas aplicaciones y dominios. Nuestro código está disponible públicamente en https://github.com/stanfordmlgroup/ManyICL.

English

Large language models are well-known to be effective at few-shot in-context learning (ICL). Recent advancements in multimodal foundation models have enabled unprecedentedly long context windows, presenting an opportunity to explore their capability to perform ICL with many more demonstrating examples. In this work, we evaluate the performance of multimodal foundation models scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro across 10 datasets spanning multiple domains (natural imagery, medical imagery, remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and fine-grained classification). We observe that many-shot ICL, including up to almost 2,000 multimodal demonstrating examples, leads to substantial improvements compared to few-shot (<100 examples) ICL across all of the datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly up to the maximum number of tested examples on many datasets. Given the high inference costs associated with the long prompts required for many-shot ICL, we also explore the impact of batching multiple queries in a single API call. We show that batching up to 50 queries can lead to performance improvements under zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on multiple datasets, while drastically reducing per-query cost and latency. Finally, we measure ICL data efficiency of the models, or the rate at which the models learn from more demonstrating examples. We find that while GPT-4o and Gemini 1.5 Pro achieve similar zero-shot performance across the datasets, Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most datasets. Our results suggest that many-shot ICL could enable users to efficiently adapt multimodal foundation models to new applications and domains. Our codebase is publicly available at https://github.com/stanfordmlgroup/ManyICL .

Aprendizaje en contexto de múltiples ejemplos en modelos fundacionales multimodales.

Many-Shot In-Context Learning in Multimodal Foundation Models

Resumen

Support