Mobile-O: Vereinheitlichtes multimodales Verständnis und Erzeugung auf Mobilgeräten

Zusammenfassung

Einheitliche multimodale Modelle können visuelle Inhalte innerhalb einer einzigen Architektur sowohl verstehen als auch generieren. Bisherige Modelle sind jedoch nach wie vor datenhungrig und zu rechenintensiv für den Einsatz auf Edge-Geräten. Wir stellen Mobile-O vor, ein kompaktes Vision-Language-Diffusionsmodell, das einheitliche multimodale Intelligenz auf ein Mobilgerät bringt. Sein Kernmodul, der Mobile Conditioning Projector (MCP), fusioniert Vision-Language-Merkmale mit einem Diffusionsgenerator unter Verwendung von Tiefenweisen Separierbaren Faltungen und schichtenweiser Ausrichtung. Dieser Entwurf ermöglicht eine effiziente cross-modale Konditionierung mit minimalem Rechenaufwand. Nach dem Training mit nur wenigen Millionen Samples und einem anschließenden Training in einem neuartigen Quadrupel-Format (Generierungs-Prompt, Bild, Frage, Antwort) verbessert Mobile-O gleichzeitig sowohl das visuelle Verständnis als auch die Generierungsfähigkeiten. Trotz seiner Effizienz erreicht Mobile-O eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu anderen einheitlichen Modellen: Es erzielt 74 % auf GenEval und übertrifft Show-O und JanusFlow um 5 % bzw. 11 %, bei gleichzeitig 6-facher bzw. 11-facher Beschleunigung. Im Bereich des visuellen Verständnisses übertrifft es sie im Durchschnitt über sieben Benchmarks um 15,3 % bzw. 5,1 %. Mit einer Laufzeit von nur ~3 Sekunden pro 512x512 Bild auf einem iPhone etabliert Mobile-O den ersten praktischen Rahmen für Echtzeit- multimodales Verständnis und Generierung auf Edge-Geräten. Wir hoffen, dass Mobile-O zukünftige Forschung zu echtzeitfähiger, einheitlicher multimodaler Intelligenz erleichtert, die vollständig on-device und ohne Cloud-Abhängigkeit läuft. Unser Code, Modelle, Datensätze und die Mobile-Anwendung sind öffentlich verfügbar unter https://amshaker.github.io/Mobile-O/.

English

Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/

Mobile-O: Vereinheitlichtes multimodales Verständnis und Erzeugung auf Mobilgeräten

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Zusammenfassung

Support