Mobile-O: унифицированное мультимодальное понимание и генерация на мобильном устройстве
Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device
February 23, 2026
Авторы: Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, Ritesh Thawkar, Omkar Thawakar, Senmao Li, Hisham Cholakkal, Ian Reid, Eric P. Xing, Salman Khan, Fahad Shahbaz Khan
cs.AI
Аннотация
Унифицированные мультимодальные модели способны одновременно понимать и генерировать визуальный контент в рамках единой архитектуры. Однако существующие модели остаются требовательными к данным и излишне громоздкими для развертывания на периферийных устройствах. Мы представляем Mobile-O — компактную визуально-языковую диффузионную модель, которая обеспечивает унифицированный мультимодальный интеллект на мобильных устройствах. Её ключевой модуль, Mobile Conditioning Projector (MCP), объединяет визуально-языковые признаки с диффузионным генератором с использованием глубинных разделяемых сверток и послойного выравнивания. Такая конструкция обеспечивает эффективное кросс-модальное кондиционирование при минимальных вычислительных затратах. Обученная всего на нескольких миллионах образцов и дообученная в новом формате квадруплета (промпт генерации, изображение, вопрос, ответ), Mobile-O совместно улучшает как возможности визуального понимания, так и генерации. Несмотря на эффективность, Mobile-O демонстрирует конкурентоспособные или превосходящие результаты по сравнению с другими унифицированными моделями, достигая 74% на GenEval и опережая Show-O и JanusFlow на 5% и 11% соответственно, при этом работая в 6 и 11 раз быстрее. В задачах визуального понимания Mobile-O превосходит их на 15,3% и 5,1% в среднем по семи тестовым наборам. Работая всего за ~3 секунды на изображение 512×512 пикселей на iPhone, Mobile-O создает первую практическую основу для реального времени унифицированного мультимодального понимания и генерации на периферийных устройствах. Мы надеемся, что Mobile-O облегчит будущие исследования в области реального времени унифицированного мультимодального интеллекта, работающего полностью на устройстве без зависимости от облачных сервисов. Наш код, модели, данные и мобильное приложение доступны по адресу https://amshaker.github.io/Mobile-O/.
English
Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/