MIO: базовая модель на мультимодальных токенах

Аннотация

В данной статье мы представляем MIO, новую базовую модель на основе мультимодальных токенов, способную понимать и генерировать речь, текст, изображения и видео в конечно-конечном авторегрессивном режиме. В то время как появление крупных языковых моделей (LLM) и мультимодальных крупных языковых моделей (MM-LLM) способствует развитию искусственного общего интеллекта благодаря их универсальным возможностям, им все еще не хватает истинного понимания и генерации от любого к любому. Недавно выпущенный GPT-4o продемонстрировал замечательный потенциал любого-к-любому LLM для сложных задач реального мира, обеспечивая омнидирекциональный ввод и вывод через изображения, речь и текст. Однако он закрытый и не поддерживает генерацию мультимодальных переплетенных последовательностей. Для заполнения этого пробела мы представляем MIO, который обучен на смеси дискретных токенов по четырем модальностям с использованием причинного мультимодального моделирования. MIO проходит четырехэтапный процесс обучения: (1) предварительное выравнивание, (2) предварительное обучение с переплетением, (3) предварительное обучение с улучшением речи и (4) всестороннюю обученную на разнообразных текстовых, визуальных и речевых задачах. Наши экспериментальные результаты показывают, что MIO демонстрирует конкурентоспособную, а в некоторых случаях даже превосходящую производительность по сравнению с предыдущими двухмодальными базовыми моделями, базовыми моделями любого-к-любому и даже модально-специфическими базовыми моделями. Более того, MIO демонстрирует передовые возможности, присущие его функции любого-к-любому, такие как переплетенная генерация видео-текста, цепочка визуального мышления, генерация визуальных руководств, редактирование инструкционных изображений и т. д.

English

In this paper, we introduce MIO, a novel foundation model built on multimodal tokens, capable of understanding and generating speech, text, images, and videos in an end-to-end, autoregressive manner. While the emergence of large language models (LLMs) and multimodal large language models (MM-LLMs) propels advancements in artificial general intelligence through their versatile capabilities, they still lack true any-to-any understanding and generation. Recently, the release of GPT-4o has showcased the remarkable potential of any-to-any LLMs for complex real-world tasks, enabling omnidirectional input and output across images, speech, and text. However, it is closed-source and does not support the generation of multimodal interleaved sequences. To address this gap, we present MIO, which is trained on a mixture of discrete tokens across four modalities using causal multimodal modeling. MIO undergoes a four-stage training process: (1) alignment pre-training, (2) interleaved pre-training, (3) speech-enhanced pre-training, and (4) comprehensive supervised fine-tuning on diverse textual, visual, and speech tasks. Our experimental results indicate that MIO exhibits competitive, and in some cases superior, performance compared to previous dual-modal baselines, any-to-any model baselines, and even modality-specific baselines. Moreover, MIO demonstrates advanced capabilities inherent to its any-to-any feature, such as interleaved video-text generation, chain-of-visual-thought reasoning, visual guideline generation, instructional image editing, etc.

MIO: базовая модель на мультимодальных токенах

MIO: A Foundation Model on Multimodal Tokens

Аннотация

Support