Генеративные мультимодальные модели обучаются в контексте.
Generative Multimodal Models are In-Context Learners
December 20, 2023
Авторы: Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang
cs.AI
Аннотация
Способность человека легко решать мультимодальные задачи в контексте (т.е. с использованием всего нескольких примеров или простых инструкций) — это то, с чем современные мультимодальные системы в значительной степени не справляются. В данной работе мы показываем, что способности крупных мультимодальных моделей к обучению в контексте, независимо от задачи, могут быть значительно улучшены за счет эффективного масштабирования. Мы представляем Emu2, генеративную мультимодальную модель с 37 миллиардами параметров, обученную на крупномасштабных мультимодальных последовательностях с использованием единой авторегрессионной цели. Emu2 демонстрирует мощные способности к обучению в мультимодальном контексте, включая решение задач, требующих мгновенного рассуждения, таких как визуальные подсказки и генерация, основанная на объектах. Модель устанавливает новый рекорд в нескольких задачах мультимодального понимания в условиях обучения с малым количеством примеров. После настройки на выполнение конкретных инструкций Emu2 достигает нового уровня state-of-the-art в сложных задачах, таких как бенчмарки вопросно-ответных систем для крупных мультимодальных моделей и генерация с открытым концом, основанная на предметах. Эти достижения демонстрируют, что Emu2 может служить базовой моделью и универсальным интерфейсом для широкого спектра мультимодальных задач. Код и модели доступны публично для содействия будущим исследованиям.
English
The human ability to easily solve multimodal tasks in context (i.e., with
only a few demonstrations or simple instructions), is what current multimodal
systems have largely struggled to imitate. In this work, we demonstrate that
the task-agnostic in-context learning capabilities of large multimodal models
can be significantly enhanced by effective scaling-up. We introduce Emu2, a
generative multimodal model with 37 billion parameters, trained on large-scale
multimodal sequences with a unified autoregressive objective. Emu2 exhibits
strong multimodal in-context learning abilities, even emerging to solve tasks
that require on-the-fly reasoning, such as visual prompting and object-grounded
generation. The model sets a new record on multiple multimodal understanding
tasks in few-shot settings. When instruction-tuned to follow specific
instructions, Emu2 further achieves new state-of-the-art on challenging tasks
such as question answering benchmarks for large multimodal models and
open-ended subject-driven generation. These achievements demonstrate that Emu2
can serve as a base model and general-purpose interface for a wide range of
multimodal tasks. Code and models are publicly available to facilitate future
research.