Mobile-O: унифицированное мультимодальное понимание и генерация на мобильном устройстве

Аннотация

Унифицированные мультимодальные модели способны одновременно понимать и генерировать визуальный контент в рамках единой архитектуры. Однако существующие модели остаются требовательными к данным и излишне громоздкими для развертывания на периферийных устройствах. Мы представляем Mobile-O — компактную визуально-языковую диффузионную модель, которая обеспечивает унифицированный мультимодальный интеллект на мобильных устройствах. Её ключевой модуль, Mobile Conditioning Projector (MCP), объединяет визуально-языковые признаки с диффузионным генератором с использованием глубинных разделяемых сверток и послойного выравнивания. Такая конструкция обеспечивает эффективное кросс-модальное кондиционирование при минимальных вычислительных затратах. Обученная всего на нескольких миллионах образцов и дообученная в новом формате квадруплета (промпт генерации, изображение, вопрос, ответ), Mobile-O совместно улучшает как возможности визуального понимания, так и генерации. Несмотря на эффективность, Mobile-O демонстрирует конкурентоспособные или превосходящие результаты по сравнению с другими унифицированными моделями, достигая 74% на GenEval и опережая Show-O и JanusFlow на 5% и 11% соответственно, при этом работая в 6 и 11 раз быстрее. В задачах визуального понимания Mobile-O превосходит их на 15,3% и 5,1% в среднем по семи тестовым наборам. Работая всего за ~3 секунды на изображение 512×512 пикселей на iPhone, Mobile-O создает первую практическую основу для реального времени унифицированного мультимодального понимания и генерации на периферийных устройствах. Мы надеемся, что Mobile-O облегчит будущие исследования в области реального времени унифицированного мультимодального интеллекта, работающего полностью на устройстве без зависимости от облачных сервисов. Наш код, модели, данные и мобильное приложение доступны по адресу https://amshaker.github.io/Mobile-O/.

English

Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/

Mobile-O: унифицированное мультимодальное понимание и генерация на мобильном устройстве

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Аннотация

Support