Unified-IO 2: Schaalvergroting van Autoregressieve Multimodale Modellen met Visie, Taal, Audio en Actie
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
December 28, 2023
Auteurs: Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
cs.AI
Samenvatting
We presenteren Unified-IO 2, het eerste autoregressieve multimodale model dat in staat is om afbeeldingen, tekst, audio en acties te begrijpen en te genereren. Om verschillende modaliteiten te verenigen, tokeniseren we invoer en uitvoer — afbeeldingen, tekst, audio, acties, begrenzingsvlakken, enz. — in een gedeelde semantische ruimte en verwerken ze vervolgens met een enkel encoder-decoder transformermodel. Omdat trainen met zulke diverse modaliteiten uitdagend is, stellen we diverse architectuurverbeteringen voor om de modeltraining te stabiliseren. We trainen ons model vanaf nul op een groot multimodaal voor-trainingscorpus uit diverse bronnen met een multimodaal mengsel van denoisers-doelstellingen. Om een uitgebreide set vaardigheden te leren, zoals het volgen van multimodale instructies, construeren en finetunen we op een ensemble van 120 datasets met prompts en augmentaties. Met een enkel verenigd model behaalt Unified-IO 2 state-of-the-art prestaties op de GRIT-benchmark en sterke resultaten in meer dan 35 benchmarks, waaronder afbeeldingsgeneratie en -begrip, natuurlijke taalbegrip, video- en audiobegrip, en robotmanipulatie. We stellen al onze modellen beschikbaar aan de onderzoeksgemeenschap.
English
We present Unified-IO 2, the first autoregressive multimodal model that is
capable of understanding and generating image, text, audio, and action. To
unify different modalities, we tokenize inputs and outputs -- images, text,
audio, action, bounding boxes, etc., into a shared semantic space and then
process them with a single encoder-decoder transformer model. Since training
with such diverse modalities is challenging, we propose various architectural
improvements to stabilize model training. We train our model from scratch on a
large multimodal pre-training corpus from diverse sources with a multimodal
mixture of denoisers objective. To learn an expansive set of skills, such as
following multimodal instructions, we construct and finetune on an ensemble of
120 datasets with prompts and augmentations. With a single unified model,
Unified-IO 2 achieves state-of-the-art performance on the GRIT benchmark and
strong results in more than 35 benchmarks, including image generation and
understanding, natural language understanding, video and audio understanding,
and robotic manipulation. We release all our models to the research community.