ChatPaper.aiChatPaper

Mobile-O: Compreensão e Geração Multimodal Unificada em Dispositivos Móveis

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

February 23, 2026
Autores: Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, Ritesh Thawkar, Omkar Thawakar, Senmao Li, Hisham Cholakkal, Ian Reid, Eric P. Xing, Salman Khan, Fahad Shahbaz Khan
cs.AI

Resumo

Os modelos multimodais unificados podem compreender e gerar conteúdo visual dentro de uma única arquitetura. No entanto, os modelos existentes continuam dependentes de grandes volumes de dados e são muito pesados para implantação em dispositivos de borda. Apresentamos o Mobile-O, um modelo compacto de difusão visão-linguagem que leva inteligência multimodal unificada para dispositivos móveis. Seu módulo central, o Mobile Conditioning Projector (MCP), funde características visão-linguagem com um gerador de difusão usando convoluções separáveis em profundidade e alinhamento por camadas. Este projeto permite condicionamento cruzado modal eficiente com custo computacional mínimo. Treinado com apenas alguns milhões de amostras e pós-treinado em um novo formato quádruplo (prompt de geração, imagem, pergunta, resposta), o Mobile-O aprimora conjuntamente as capacidades de compreensão e geração visual. Apesar de sua eficiência, o Mobile-O atinge desempenho competitivo ou superior em comparação com outros modelos unificados, alcançando 74% no GenEval e superando Show-O e JanusFlow em 5% e 11%, respectivamente, enquanto executa 6x e 11x mais rápido. Para compreensão visual, o Mobile-O os supera em 15,3% e 5,1% na média de sete benchmarks. Executando em apenas ~3s por imagem 512x512 em um iPhone, o Mobile-O estabelece o primeiro framework prático para compreensão e geração multimodal unificada em tempo real em dispositivos de borda. Esperamos que o Mobile-O facilite pesquisas futuras em inteligência multimodal unificada em tempo real executada inteiramente no dispositivo, sem dependência da nuvem. Nosso código, modelos, conjuntos de dados e aplicativo móvel estão publicamente disponíveis em https://amshaker.github.io/Mobile-O/.
English
Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/
PDF233March 28, 2026