Mobile-O: Verenigde Multimodale Begrip en Generatie op Mobiele Apparaten

Samenvatting

Unified multimodale modellen kunnen zowel visuele inhoud begrijpen als genereren binnen een enkele architectuur. Bestaande modellen blijven echter datahongerig en te zwaar voor implementatie op edge-apparaten. Wij presenteren Mobile-O, een compact vision-language-diffusiemodel dat unified multimodale intelligentie naar een mobiel apparaat brengt. De kernmodule, de Mobile Conditioning Projector (MCP), fuseert vision-language kenmerken met een diffusiegenerator door middel van depthwise-separable convoluties en laaggewijze uitlijning. Dit ontwerp maakt efficiënte cross-modale conditionering mogelijk met minimale rekenkosten. Getraind op slechts enkele miljoenen samples en nage-traind in een nieuw quadruplet-formaat (generatieprompt, afbeelding, vraag, antwoord), verbetert Mobile-O zowel visueel begrip als generatiecapaciteiten gezamenlijk. Ondanks zijn efficiëntie behaalt Mobile-O competitieve of superieure prestaties vergeleken met andere unified modellen, met een score van 74% op GenEval en een outperformance van Show-O en JanusFlow met respectievelijk 5% en 11%, terwijl het 6x en 11x sneller draait. Voor visueel begrip overtreft Mobile-O hen met gemiddeld 15,3% en 5,1% over zeven benchmarks. Met een verwerkingstijd van slechts ~3 seconden per 512x512 afbeelding op een iPhone, vestigt Mobile-O het eerste praktische framework voor real-time unified multimodale begrip en generatie op edge-apparaten. Wij hopen dat Mobile-O toekomstig onderzoek zal vergemakkelijken naar real-time unified multimodale intelligentie die volledig on-device draait zonder cloudafhankelijkheid. Onze code, modellen, datasets en mobiele applicatie zijn openbaar beschikbaar op https://amshaker.github.io/Mobile-O/.

English

Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/

Mobile-O: Verenigde Multimodale Begrip en Generatie op Mobiele Apparaten

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Samenvatting

Support