Unified-IO 2: Escalonando Modelos Autoregressivos Multimodais com Visão, Linguagem, Áudio e Ação
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
December 28, 2023
Autores: Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
cs.AI
Resumo
Apresentamos o Unified-IO 2, o primeiro modelo multimodal autorregressivo capaz de compreender e gerar imagens, texto, áudio e ações. Para unificar diferentes modalidades, tokenizamos entradas e saídas — imagens, texto, áudio, ações, caixas delimitadoras, etc. — em um espaço semântico compartilhado e, em seguida, as processamos com um único modelo transformador de codificador-decodificador. Como o treinamento com modalidades tão diversas é desafiador, propomos várias melhorias arquitetônicas para estabilizar o treinamento do modelo. Treinamos nosso modelo do zero em um grande corpus de pré-treinamento multimodal proveniente de diversas fontes, com um objetivo de mistura de desnaturadores multimodais. Para aprender um conjunto amplo de habilidades, como seguir instruções multimodais, construímos e ajustamos um conjunto de 120 conjuntos de dados com prompts e aumentações. Com um único modelo unificado, o Unified-IO 2 alcança desempenho de ponta no benchmark GRIT e resultados robustos em mais de 35 benchmarks, incluindo geração e compreensão de imagens, compreensão de linguagem natural, compreensão de vídeo e áudio, e manipulação robótica. Disponibilizamos todos os nossos modelos para a comunidade de pesquisa.
English
We present Unified-IO 2, the first autoregressive multimodal model that is
capable of understanding and generating image, text, audio, and action. To
unify different modalities, we tokenize inputs and outputs -- images, text,
audio, action, bounding boxes, etc., into a shared semantic space and then
process them with a single encoder-decoder transformer model. Since training
with such diverse modalities is challenging, we propose various architectural
improvements to stabilize model training. We train our model from scratch on a
large multimodal pre-training corpus from diverse sources with a multimodal
mixture of denoisers objective. To learn an expansive set of skills, such as
following multimodal instructions, we construct and finetune on an ensemble of
120 datasets with prompts and augmentations. With a single unified model,
Unified-IO 2 achieves state-of-the-art performance on the GRIT benchmark and
strong results in more than 35 benchmarks, including image generation and
understanding, natural language understanding, video and audio understanding,
and robotic manipulation. We release all our models to the research community.