Mobile-O : Compréhension et génération multimodales unifiées sur appareil mobile

Résumé

Les modèles multimodaux unifiés peuvent à la fois comprendre et générer du contenu visuel au sein d'une architecture unique. Cependant, les modèles existants restent gourmands en données et trop lourds pour être déployés sur des appareils périphériques. Nous présentons Mobile-O, un modèle compact de diffusion vision-langage qui apporte une intelligence multimodale unifiée sur un appareil mobile. Son module central, le Mobile Conditioning Projector (MCP), fusionne les caractéristiques vision-langage avec un générateur de diffusion en utilisant des convolutions séparables en profondeur et un alignement par couches. Cette conception permet un conditionnement intermodal efficace avec un coût computationnel minimal. Entraîné sur seulement quelques millions d'échantillons et post-entraîné dans un nouveau format quadruplet (prompte de génération, image, question, réponse), Mobile-O améliore conjointement les capacités de compréhension et de génération visuelles. Malgré son efficacité, Mobile-O obtient des performances compétitives ou supérieures par rapport aux autres modèles unifiés, atteignant 74% sur GenEval et surpassant Show-O et JanusFlow de 5% et 11%, tout en fonctionnant respectivement 6 et 11 fois plus vite. Pour la compréhension visuelle, Mobile-O les dépasse de 15,3% et 5,1% en moyenne sur sept benchmarks. Fonctionnant en seulement ~3s par image 512x512 sur un iPhone, Mobile-O établit le premier cadre pratique pour la compréhension et la génération multimodales unifiées en temps réel sur les appareils périphériques. Nous espérons que Mobile-O facilitera les futures recherches sur l'intelligence multimodale unifiée en temps réel fonctionnant entièrement sur appareil sans dépendance au cloud. Notre code, modèles, jeux de données et application mobile sont disponibles publiquement à l'adresse https://amshaker.github.io/Mobile-O/

English

Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/

Mobile-O : Compréhension et génération multimodales unifiées sur appareil mobile

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Résumé

Support