ChatPaper.aiChatPaper

Unified-IO 2: Scalabilità di Modelli Autoregressivi Multimodali con Visione, Linguaggio, Audio e Azione

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

December 28, 2023
Autori: Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
cs.AI

Abstract

Presentiamo Unified-IO 2, il primo modello multimodale autoregressivo in grado di comprendere e generare immagini, testo, audio e azioni. Per unificare le diverse modalità, tokenizziamo input e output — immagini, testo, audio, azioni, bounding box, ecc. — in uno spazio semantico condiviso e li elaboriamo con un unico modello trasformatore encoder-decoder. Poiché l'addestramento con modalità così diverse è impegnativo, proponiamo vari miglioramenti architetturali per stabilizzare il training del modello. Addestriamo il nostro modello da zero su un ampio corpus di pre-training multimodale proveniente da fonti diverse, utilizzando un obiettivo multimodale di miscela di denoiser. Per apprendere un vasto insieme di competenze, come seguire istruzioni multimodali, costruiamo e ottimizziamo su un insieme di 120 dataset con prompt e aumentazioni. Con un unico modello unificato, Unified-IO 2 raggiunge prestazioni all'avanguardia nel benchmark GRIT e risultati solidi in oltre 35 benchmark, tra cui generazione e comprensione di immagini, comprensione del linguaggio naturale, comprensione di video e audio, e manipolazione robotica. Rilasciamo tutti i nostri modelli alla comunità di ricerca.
English
We present Unified-IO 2, the first autoregressive multimodal model that is capable of understanding and generating image, text, audio, and action. To unify different modalities, we tokenize inputs and outputs -- images, text, audio, action, bounding boxes, etc., into a shared semantic space and then process them with a single encoder-decoder transformer model. Since training with such diverse modalities is challenging, we propose various architectural improvements to stabilize model training. We train our model from scratch on a large multimodal pre-training corpus from diverse sources with a multimodal mixture of denoisers objective. To learn an expansive set of skills, such as following multimodal instructions, we construct and finetune on an ensemble of 120 datasets with prompts and augmentations. With a single unified model, Unified-IO 2 achieves state-of-the-art performance on the GRIT benchmark and strong results in more than 35 benchmarks, including image generation and understanding, natural language understanding, video and audio understanding, and robotic manipulation. We release all our models to the research community.
PDF302February 7, 2026