Ming-Omni: Un Modello Multimodale Unificato per Percezione e Generazione

Abstract

Proponiamo Ming-Omni, un modello multimodale unificato in grado di elaborare immagini, testo, audio e video, dimostrando una forte competenza sia nella generazione vocale che in quella di immagini. Ming-Omni utilizza encoder dedicati per estrarre token da diverse modalità, che vengono poi elaborati da Ling, un'architettura MoE dotata di router specifici per modalità di nuova concezione. Questo design consente a un singolo modello di elaborare e fondere in modo efficiente input multimodali all'interno di un framework unificato, facilitando così diverse attività senza richiedere modelli separati, fine-tuning specifici per task o riprogettazioni strutturali. In modo significativo, Ming-Omni va oltre i modelli multimodali convenzionali supportando la generazione di audio e immagini. Ciò è reso possibile grazie all'integrazione di un decoder audio avanzato per una sintesi vocale naturale e di Ming-Lite-Uni per la generazione di immagini di alta qualità, che consentono inoltre al modello di impegnarsi in chat contestuali, eseguire la conversione da testo a voce e condurre un'editing di immagini versatile. I nostri risultati sperimentali dimostrano che Ming-Omni offre una soluzione potente per la percezione e la generazione unificate in tutte le modalità. In particolare, il nostro Ming-Omni è il primo modello open-source, a nostra conoscenza, a eguagliare GPT-4o nel supporto alle modalità, e rilasciamo tutto il codice e i pesi del modello per incoraggiare ulteriori ricerche e sviluppi nella comunità.

English

We propose Ming-Omni, a unified multimodal model capable of processing images, text, audio, and video, while demonstrating strong proficiency in both speech and image generation. Ming-Omni employs dedicated encoders to extract tokens from different modalities, which are then processed by Ling, an MoE architecture equipped with newly proposed modality-specific routers. This design enables a single model to efficiently process and fuse multimodal inputs within a unified framework, thereby facilitating diverse tasks without requiring separate models, task-specific fine-tuning, or structural redesign. Importantly, Ming-Omni extends beyond conventional multimodal models by supporting audio and image generation. This is achieved through the integration of an advanced audio decoder for natural-sounding speech and Ming-Lite-Uni for high-quality image generation, which also allow the model to engage in context-aware chatting, perform text-to-speech conversion, and conduct versatile image editing. Our experimental results showcase Ming-Omni offers a powerful solution for unified perception and generation across all modalities. Notably, our proposed Ming-Omni is the first open-source model we are aware of to match GPT-4o in modality support, and we release all code and model weights to encourage further research and development in the community.

Ming-Omni: Un Modello Multimodale Unificato per Percezione e Generazione

Ming-Omni: A Unified Multimodal Model for Perception and Generation

Abstract

Support