Unified-IO 2: Escalando Modelos Autoregresivos Multimodales con Visión, Lenguaje, Audio y Acción
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
December 28, 2023
Autores: Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
cs.AI
Resumen
Presentamos Unified-IO 2, el primer modelo multimodal autorregresivo capaz de comprender y generar imágenes, texto, audio y acciones. Para unificar las diferentes modalidades, tokenizamos las entradas y salidas —imágenes, texto, audio, acciones, cuadros delimitadores, etc.— en un espacio semántico compartido y luego las procesamos con un único modelo transformador de codificador-decodificador. Dado que el entrenamiento con modalidades tan diversas es un desafío, proponemos varias mejoras arquitectónicas para estabilizar el entrenamiento del modelo. Entrenamos nuestro modelo desde cero en un gran corpus de preentrenamiento multimodal proveniente de diversas fuentes, utilizando un objetivo de mezcla multimodal de desenmascaradores. Para aprender un amplio conjunto de habilidades, como seguir instrucciones multimodales, construimos y afinamos un conjunto de 120 conjuntos de datos con indicaciones y aumentos. Con un único modelo unificado, Unified-IO 2 logra un rendimiento de vanguardia en el benchmark GRIT y resultados sólidos en más de 35 benchmarks, incluyendo generación y comprensión de imágenes, comprensión del lenguaje natural, comprensión de video y audio, y manipulación robótica. Liberamos todos nuestros modelos para la comunidad investigadora.
English
We present Unified-IO 2, the first autoregressive multimodal model that is
capable of understanding and generating image, text, audio, and action. To
unify different modalities, we tokenize inputs and outputs -- images, text,
audio, action, bounding boxes, etc., into a shared semantic space and then
process them with a single encoder-decoder transformer model. Since training
with such diverse modalities is challenging, we propose various architectural
improvements to stabilize model training. We train our model from scratch on a
large multimodal pre-training corpus from diverse sources with a multimodal
mixture of denoisers objective. To learn an expansive set of skills, such as
following multimodal instructions, we construct and finetune on an ensemble of
120 datasets with prompts and augmentations. With a single unified model,
Unified-IO 2 achieves state-of-the-art performance on the GRIT benchmark and
strong results in more than 35 benchmarks, including image generation and
understanding, natural language understanding, video and audio understanding,
and robotic manipulation. We release all our models to the research community.