Mobile-O: Comprensione e Generazione Multimodale Unificate su Dispositivi Mobili

Abstract

I modelli multimodali unificati sono in grado sia di comprendere che di generare contenuti visivi all'interno di un'unica architettura. I modelli esistenti, tuttavia, rimangono avidi di dati e troppo pesanti per la distribuzione su dispositivi edge. Presentiamo Mobile-O, un modello compatto visione-linguaggio-diffusione che porta l'intelligenza multimodale unificata su un dispositivo mobile. Il suo modulo centrale, il Mobile Conditioning Projector (MCP), fonde le caratteristiche visive e linguistiche con un generatore di diffusione utilizzando convoluzioni depthwise separabili e allineamento stratificato. Questo design consente un condizionamento cross-modale efficiente con un costo computazionale minimo. Addestrato su soli pochi milioni di campioni e post-addestrato in un nuovo formato a quadrupla (prompt di generazione, immagine, domanda, risposta), Mobile-O migliora congiuntamente sia le capacità di comprensione che di generazione visiva. Nonostante la sua efficienza, Mobile-O raggiunge prestazioni competitive o superiori rispetto ad altri modelli unificati, ottenendo il 74% su GenEval e superando Show-O e JanusFlow del 5% e dell'11%, mentre è rispettivamente 6 e 11 volte più veloce. Per la comprensione visiva, Mobile-O li supera in media del 15,3% e del 5,1% su sette benchmark. Eseguendo in soli ~3 secondi per immagine 512x512 su un iPhone, Mobile-O stabilisce il primo quadro pratico per la comprensione e generazione multimodale unificata in tempo reale su dispositivi edge. Speriamo che Mobile-O faciliti la futura ricerca sull'intelligenza multimodale unificata in tempo reale eseguita interamente sul dispositivo senza dipendenze cloud. Il nostro codice, modelli, dataset e applicazione mobile sono pubblicamente disponibili su https://amshaker.github.io/Mobile-O/.

English

Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/

Mobile-O: Comprensione e Generazione Multimodale Unificate su Dispositivi Mobili

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Abstract

Support