Unified-IO 2: Масштабирование авторегрессивных мультимодальных моделей с использованием зрения, языка, аудио и действий
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
December 28, 2023
Авторы: Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
cs.AI
Аннотация
Мы представляем Unified-IO 2 — первую авторегрессивную мультимодальную модель, способную понимать и генерировать изображения, текст, аудио и действия. Для объединения различных модальностей мы токенизируем входные и выходные данные — изображения, текст, аудио, действия, ограничивающие рамки и т.д. — в общее семантическое пространство, а затем обрабатываем их с помощью единой модели трансформера с архитектурой кодировщик-декодировщик. Поскольку обучение с такими разнообразными модальностями является сложной задачей, мы предлагаем различные архитектурные улучшения для стабилизации процесса обучения модели. Мы обучаем нашу модель с нуля на большом мультимодальном корпусе предварительного обучения, собранном из разнообразных источников, с использованием мультимодальной смеси целей денойзеров. Для освоения широкого набора навыков, таких как выполнение мультимодальных инструкций, мы создаем и дообучаем модель на ансамбле из 120 наборов данных с подсказками и аугментациями. С единой унифицированной моделью Unified-IO 2 достигает наилучших результатов на бенчмарке GRIT и демонстрирует высокие показатели в более чем 35 бенчмарках, включая генерацию и понимание изображений, понимание естественного языка, понимание видео и аудио, а также манипуляции в робототехнике. Мы публикуем все наши модели для научного сообщества.
English
We present Unified-IO 2, the first autoregressive multimodal model that is
capable of understanding and generating image, text, audio, and action. To
unify different modalities, we tokenize inputs and outputs -- images, text,
audio, action, bounding boxes, etc., into a shared semantic space and then
process them with a single encoder-decoder transformer model. Since training
with such diverse modalities is challenging, we propose various architectural
improvements to stabilize model training. We train our model from scratch on a
large multimodal pre-training corpus from diverse sources with a multimodal
mixture of denoisers objective. To learn an expansive set of skills, such as
following multimodal instructions, we construct and finetune on an ensemble of
120 datasets with prompts and augmentations. With a single unified model,
Unified-IO 2 achieves state-of-the-art performance on the GRIT benchmark and
strong results in more than 35 benchmarks, including image generation and
understanding, natural language understanding, video and audio understanding,
and robotic manipulation. We release all our models to the research community.