Ming-Omni: Un Modelo Multimodal Unificado para Percepción y Generación

Resumen

Proponemos Ming-Omni, un modelo multimodal unificado capaz de procesar imágenes, texto, audio y video, demostrando una gran competencia tanto en la generación de voz como de imágenes. Ming-Omni emplea codificadores dedicados para extraer tokens de diferentes modalidades, los cuales son procesados por Ling, una arquitectura MoE equipada con enrutadores específicos para cada modalidad recientemente propuestos. Este diseño permite que un solo modelo procese y fusione eficientemente entradas multimodales dentro de un marco unificado, facilitando así diversas tareas sin requerir modelos separados, ajustes específicos para cada tarea o rediseños estructurales. Es importante destacar que Ming-Omni va más allá de los modelos multimodales convencionales al soportar la generación de audio e imágenes. Esto se logra mediante la integración de un decodificador de audio avanzado para la generación de voz natural y Ming-Lite-Uni para la generación de imágenes de alta calidad, lo que también permite al modelo participar en conversaciones conscientes del contexto, realizar conversiones de texto a voz y llevar a cabo ediciones de imágenes versátiles. Nuestros resultados experimentales demuestran que Ming-Omni ofrece una solución poderosa para la percepción y generación unificadas en todas las modalidades. Cabe destacar que nuestro modelo propuesto, Ming-Omni, es el primer modelo de código abierto que conocemos que iguala a GPT-4o en soporte de modalidades, y liberamos todo el código y los pesos del modelo para fomentar una mayor investigación y desarrollo en la comunidad.

English

We propose Ming-Omni, a unified multimodal model capable of processing images, text, audio, and video, while demonstrating strong proficiency in both speech and image generation. Ming-Omni employs dedicated encoders to extract tokens from different modalities, which are then processed by Ling, an MoE architecture equipped with newly proposed modality-specific routers. This design enables a single model to efficiently process and fuse multimodal inputs within a unified framework, thereby facilitating diverse tasks without requiring separate models, task-specific fine-tuning, or structural redesign. Importantly, Ming-Omni extends beyond conventional multimodal models by supporting audio and image generation. This is achieved through the integration of an advanced audio decoder for natural-sounding speech and Ming-Lite-Uni for high-quality image generation, which also allow the model to engage in context-aware chatting, perform text-to-speech conversion, and conduct versatile image editing. Our experimental results showcase Ming-Omni offers a powerful solution for unified perception and generation across all modalities. Notably, our proposed Ming-Omni is the first open-source model we are aware of to match GPT-4o in modality support, and we release all code and model weights to encourage further research and development in the community.