Многократное обучение в контексте в мультимодельных базовых моделях
Many-Shot In-Context Learning in Multimodal Foundation Models
May 16, 2024
Авторы: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng
cs.AI
Аннотация
Большие языковые модели хорошо известны своей эффективностью в обучении с небольшим количеством примеров в контексте (ICL). Недавние достижения в области мультимодальных базовых моделей позволили создавать модели с беспрецедентно длинными окнами контекста, что открывает возможность исследовать их способность выполнять ICL с гораздо большим количеством демонстрационных примеров. В данной работе мы оцениваем производительность мультимодальных базовых моделей, масштабируясь от обучения с небольшим количеством примеров до обучения с большим количеством примеров в контексте. Мы проводим сравнительный анализ моделей GPT-4o и Gemini 1.5 Pro на 10 наборах данных, охватывающих несколько областей (естественные изображения, медицинские изображения, дистанционное зондирование и молекулярные изображения) и задач (многоклассовая, многоклассовая с несколькими метками и детализированная классификация). Мы наблюдаем, что обучение с большим количеством примеров в контексте, включая почти 2 000 мультимодальных демонстрационных примеров, приводит к существенным улучшениям по сравнению с обучением с небольшим количеством примеров (<100 примеров) на всех наборах данных. Кроме того, производительность модели Gemini 1.5 Pro продолжает улучшаться логарифмически до максимального количества протестированных примеров на многих наборах данных. Учитывая высокие затраты на вывод, связанные с длинными запросами, необходимыми для обучения с большим количеством примеров в контексте, мы также исследуем влияние пакетной обработки нескольких запросов в одном API-вызове. Мы показываем, что пакетная обработка до 50 запросов может привести к улучшению производительности в нулевом и многократном обучении с большим количеством примеров в контексте, с существенными выигрышами в настройке нулевого обучения на нескольких наборах данных, при этом значительно снижая стоимость и задержку на запрос. Наконец, мы измеряем эффективность данных ICL моделей, то есть скорость, с которой модели учатся на большем количестве демонстрационных примеров. Мы обнаруживаем, что хотя модели GPT-4o и Gemini 1.5 Pro достигают сходной производительности в настройке нулевого обучения на наборах данных, модель Gemini 1.5 Pro обладает более высокой эффективностью данных ICL, чем GPT-4o на большинстве наборов данных. Наши результаты подтверждают, что обучение с большим количеством примеров в контексте может позволить пользователям эффективно адаптировать мультимодальные базовые модели к новым приложениям и областям. Наш код доступен публично по адресу https://github.com/stanfordmlgroup/ManyICL.
English
Large language models are well-known to be effective at few-shot in-context
learning (ICL). Recent advancements in multimodal foundation models have
enabled unprecedentedly long context windows, presenting an opportunity to
explore their capability to perform ICL with many more demonstrating examples.
In this work, we evaluate the performance of multimodal foundation models
scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro
across 10 datasets spanning multiple domains (natural imagery, medical imagery,
remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and
fine-grained classification). We observe that many-shot ICL, including up to
almost 2,000 multimodal demonstrating examples, leads to substantial
improvements compared to few-shot (<100 examples) ICL across all of the
datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly
up to the maximum number of tested examples on many datasets. Given the high
inference costs associated with the long prompts required for many-shot ICL, we
also explore the impact of batching multiple queries in a single API call. We
show that batching up to 50 queries can lead to performance improvements under
zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on
multiple datasets, while drastically reducing per-query cost and latency.
Finally, we measure ICL data efficiency of the models, or the rate at which the
models learn from more demonstrating examples. We find that while GPT-4o and
Gemini 1.5 Pro achieve similar zero-shot performance across the datasets,
Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most
datasets. Our results suggest that many-shot ICL could enable users to
efficiently adapt multimodal foundation models to new applications and domains.
Our codebase is publicly available at
https://github.com/stanfordmlgroup/ManyICL .Summary
AI-Generated Summary