ChatPaper.aiChatPaper

Unified-IO 2 : Mise à l'échelle de modèles multimodaux autorégressifs intégrant la vision, le langage, l'audio et l'action

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

December 28, 2023
Auteurs: Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
cs.AI

Résumé

Nous présentons Unified-IO 2, le premier modèle multimodal autorégressif capable de comprendre et de générer des images, du texte, de l'audio et des actions. Pour unifier les différentes modalités, nous tokenisons les entrées et sorties — images, texte, audio, actions, boîtes englobantes, etc. — dans un espace sémantique partagé, puis les traitons avec un unique modèle transformeur encodeur-décodeur. Étant donné que l'entraînement avec des modalités aussi diverses est complexe, nous proposons diverses améliorations architecturales pour stabiliser l'entraînement du modèle. Nous entraînons notre modèle à partir de zéro sur un large corpus de pré-entraînement multimodal provenant de sources variées, avec un objectif de mélange multimodal de débruiteurs. Pour apprendre un ensemble étendu de compétences, telles que le suivi d'instructions multimodales, nous construisons et affinons un ensemble de 120 jeux de données avec des prompts et des augmentations. Avec un seul modèle unifié, Unified-IO 2 atteint des performances de pointe sur le benchmark GRIT et obtient des résultats solides sur plus de 35 benchmarks, incluant la génération et la compréhension d'images, la compréhension du langage naturel, la compréhension de vidéos et d'audio, ainsi que la manipulation robotique. Nous mettons tous nos modèles à disposition de la communauté de recherche.
English
We present Unified-IO 2, the first autoregressive multimodal model that is capable of understanding and generating image, text, audio, and action. To unify different modalities, we tokenize inputs and outputs -- images, text, audio, action, bounding boxes, etc., into a shared semantic space and then process them with a single encoder-decoder transformer model. Since training with such diverse modalities is challenging, we propose various architectural improvements to stabilize model training. We train our model from scratch on a large multimodal pre-training corpus from diverse sources with a multimodal mixture of denoisers objective. To learn an expansive set of skills, such as following multimodal instructions, we construct and finetune on an ensemble of 120 datasets with prompts and augmentations. With a single unified model, Unified-IO 2 achieves state-of-the-art performance on the GRIT benchmark and strong results in more than 35 benchmarks, including image generation and understanding, natural language understanding, video and audio understanding, and robotic manipulation. We release all our models to the research community.
PDF292December 15, 2024