Mobile-O: Comprensión y Generación Multimodal Unificada en Dispositivos Móviles

Resumen

Los modelos multimodales unificados pueden tanto comprender como generar contenido visual dentro de una única arquitectura. Sin embargo, los modelos existentes siguen siendo muy demandantes de datos y demasiado pesados para su implementación en dispositivos de borde. Presentamos Mobile-O, un modelo compacto de difusión visión-lenguaje que lleva la inteligencia multimodal unificada a un dispositivo móvil. Su módulo central, el Proyector de Condicionamiento Móvil (MCP), fusiona características visión-lenguaje con un generador de difusión utilizando convoluciones separables en profundidad y alineación por capas. Este diseño permite un condicionamiento cruzado eficiente con un coste computacional mínimo. Entrenado con solo unos pocos millones de muestras y post-entrenado en un novedoso formato cuarteto (prompt de generación, imagen, pregunta, respuesta), Mobile-O mejora conjuntamente las capacidades de comprensión y generación visual. A pesar de su eficiencia, Mobile-O logra un rendimiento competitivo o superior en comparación con otros modelos unificados, alcanzando un 74% en GenEval y superando a Show-O y JanusFlow en un 5% y un 11%, respectivamente, mientras se ejecuta 6 y 11 veces más rápido. En comprensión visual, Mobile-O los supera en un 15,3% y un 5,1% en promedio a lo largo de siete benchmarks. Ejecutándose en solo ~3s por imagen de 512x512 en un iPhone, Mobile-O establece el primer marco práctico para la comprensión y generación multimodal unificada en tiempo real en dispositivos de borde. Esperamos que Mobile-O facilite la investigación futura en inteligencia multimodal unificada en tiempo real que se ejecute completamente en el dispositivo sin dependencia de la nube. Nuestro código, modelos, conjuntos de datos y aplicación móvil están disponibles públicamente en https://amshaker.github.io/Mobile-O/.

English

Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/

Mobile-O: Comprensión y Generación Multimodal Unificada en Dispositivos Móviles

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Resumen

Support