Unified-IO 2: Skalierung autoregressiver multimodaler Modelle mit Vision, Sprache, Audio und Aktion
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
December 28, 2023
Autoren: Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
cs.AI
Zusammenfassung
Wir präsentieren Unified-IO 2, das erste autoregressive multimodale Modell, das in der Lage ist, Bilder, Text, Audio und Aktionen zu verstehen und zu generieren. Um verschiedene Modalitäten zu vereinheitlichen, tokenisieren wir Eingaben und Ausgaben – Bilder, Text, Audio, Aktionen, Begrenzungsrahmen usw. – in einen gemeinsamen semantischen Raum und verarbeiten sie anschließend mit einem einzigen Encoder-Decoder-Transformer-Modell. Da das Training mit solch unterschiedlichen Modalitäten herausfordernd ist, schlagen wir verschiedene architektonische Verbesserungen vor, um das Modelltraining zu stabilisieren. Wir trainieren unser Modell von Grund auf mit einem großen multimodalen Vorab-Trainingskorpus aus diversen Quellen und einem multimodalen Mixture-of-Denoisers-Ziel. Um ein breites Spektrum an Fähigkeiten zu erlernen, wie das Befolgen multimodaler Anweisungen, konstruieren wir ein Ensemble von 120 Datensätzen mit Prompts und Augmentierungen und führen darauf ein Fein-Tuning durch. Mit einem einzigen vereinheitlichten Modell erreicht Unified-IO 2 Spitzenleistungen im GRIT-Benchmark und starke Ergebnisse in mehr als 35 Benchmarks, darunter Bildgenerierung und -verständnis, natürliches Sprachverständnis, Video- und Audioverständnis sowie robotische Manipulation. Wir stellen alle unsere Modelle der Forschungsgemeinschaft zur Verfügung.
English
We present Unified-IO 2, the first autoregressive multimodal model that is
capable of understanding and generating image, text, audio, and action. To
unify different modalities, we tokenize inputs and outputs -- images, text,
audio, action, bounding boxes, etc., into a shared semantic space and then
process them with a single encoder-decoder transformer model. Since training
with such diverse modalities is challenging, we propose various architectural
improvements to stabilize model training. We train our model from scratch on a
large multimodal pre-training corpus from diverse sources with a multimodal
mixture of denoisers objective. To learn an expansive set of skills, such as
following multimodal instructions, we construct and finetune on an ensemble of
120 datasets with prompts and augmentations. With a single unified model,
Unified-IO 2 achieves state-of-the-art performance on the GRIT benchmark and
strong results in more than 35 benchmarks, including image generation and
understanding, natural language understanding, video and audio understanding,
and robotic manipulation. We release all our models to the research community.