Mobile-O: Compreensão e Geração Multimodal Unificada em Dispositivos Móveis

Resumo

Os modelos multimodais unificados podem compreender e gerar conteúdo visual dentro de uma única arquitetura. No entanto, os modelos existentes continuam dependentes de grandes volumes de dados e são muito pesados para implantação em dispositivos de borda. Apresentamos o Mobile-O, um modelo compacto de difusão visão-linguagem que leva inteligência multimodal unificada para dispositivos móveis. Seu módulo central, o Mobile Conditioning Projector (MCP), funde características visão-linguagem com um gerador de difusão usando convoluções separáveis em profundidade e alinhamento por camadas. Este projeto permite condicionamento cruzado modal eficiente com custo computacional mínimo. Treinado com apenas alguns milhões de amostras e pós-treinado em um novo formato quádruplo (prompt de geração, imagem, pergunta, resposta), o Mobile-O aprimora conjuntamente as capacidades de compreensão e geração visual. Apesar de sua eficiência, o Mobile-O atinge desempenho competitivo ou superior em comparação com outros modelos unificados, alcançando 74% no GenEval e superando Show-O e JanusFlow em 5% e 11%, respectivamente, enquanto executa 6x e 11x mais rápido. Para compreensão visual, o Mobile-O os supera em 15,3% e 5,1% na média de sete benchmarks. Executando em apenas ~3s por imagem 512x512 em um iPhone, o Mobile-O estabelece o primeiro framework prático para compreensão e geração multimodal unificada em tempo real em dispositivos de borda. Esperamos que o Mobile-O facilite pesquisas futuras em inteligência multimodal unificada em tempo real executada inteiramente no dispositivo, sem dependência da nuvem. Nosso código, modelos, conjuntos de dados e aplicativo móvel estão publicamente disponíveis em https://amshaker.github.io/Mobile-O/.

English

Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/

Mobile-O: Compreensão e Geração Multimodal Unificada em Dispositivos Móveis

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Resumo

Support