MIO: Un Modello Fondamentale sui Token Multimodali

Abstract

In questo articolo, presentiamo MIO, un nuovo modello fondamentale basato su token multimodali, in grado di comprendere e generare discorsi, testi, immagini e video in modo end-to-end, autoregressivo. Sebbene l'emergere di grandi modelli linguistici (LLM) e di grandi modelli linguistici multimodali (MM-LLM) spinga gli avanzamenti nell'intelligenza artificiale generale attraverso le loro capacità versatili, mancano ancora di una vera comprensione e generazione any-to-any. Recentemente, il rilascio di GPT-4o ha mostrato il notevole potenziale dei LLM any-to-any per compiti reali complessi, consentendo un input e un output omnidirezionali attraverso immagini, discorsi e testi. Tuttavia, è closed-source e non supporta la generazione di sequenze multimodali interlacciate. Per affrontare questa lacuna, presentiamo MIO, che è addestrato su una miscela di token discreti attraverso quattro modalità utilizzando la modellazione multimodale causale. MIO passa attraverso un processo di addestramento a quattro fasi: (1) pre-addestramento dell'allineamento, (2) pre-addestramento interlacciato, (3) pre-addestramento potenziato dal discorso e (4) un'esaustiva messa a punto supervisionata su varie attività testuali, visive e di discorso. I nostri risultati sperimentali indicano che MIO mostra prestazioni competitive e, in alcuni casi, superiori rispetto ai precedenti baselines dual-modal, baselines any-to-any e persino baselines specifici della modalità. Inoltre, MIO dimostra capacità avanzate intrinseche alla sua funzionalità any-to-any, come la generazione video-testo interlacciata, il ragionamento a catena del pensiero visivo, la generazione di linee guida visive, la modifica di immagini istruttive, ecc.

English

In this paper, we introduce MIO, a novel foundation model built on multimodal tokens, capable of understanding and generating speech, text, images, and videos in an end-to-end, autoregressive manner. While the emergence of large language models (LLMs) and multimodal large language models (MM-LLMs) propels advancements in artificial general intelligence through their versatile capabilities, they still lack true any-to-any understanding and generation. Recently, the release of GPT-4o has showcased the remarkable potential of any-to-any LLMs for complex real-world tasks, enabling omnidirectional input and output across images, speech, and text. However, it is closed-source and does not support the generation of multimodal interleaved sequences. To address this gap, we present MIO, which is trained on a mixture of discrete tokens across four modalities using causal multimodal modeling. MIO undergoes a four-stage training process: (1) alignment pre-training, (2) interleaved pre-training, (3) speech-enhanced pre-training, and (4) comprehensive supervised fine-tuning on diverse textual, visual, and speech tasks. Our experimental results indicate that MIO exhibits competitive, and in some cases superior, performance compared to previous dual-modal baselines, any-to-any model baselines, and even modality-specific baselines. Moreover, MIO demonstrates advanced capabilities inherent to its any-to-any feature, such as interleaved video-text generation, chain-of-visual-thought reasoning, visual guideline generation, instructional image editing, etc.

MIO: Un Modello Fondamentale sui Token Multimodali

MIO: A Foundation Model on Multimodal Tokens

Abstract

Summary

Support

Support