On-Device Sora: Ermöglichen der Diffusionsbasierten Text-zu-Video-Erstellung für mobile Geräte

papers.abstract

Wir präsentieren On-device Sora, eine wegweisende Lösung für die auf Diffusion basierende Text-zu-Video-Erzeugung auf Mobilgeräten, die effizient auf Geräten der Smartphone-Klasse arbeitet. Aufbauend auf Open-Sora wendet On-device Sora drei neuartige Techniken an, um den Herausforderungen der auf Diffusion basierenden Text-zu-Video-Erzeugung auf rechen- und speicherbegrenzten mobilen Geräten zu begegnen. Erstens reduziert Linear Proportional Leap (LPL) die übermäßigen Rauschunterdrückungsschritte, die für die Video-Diffusion erforderlich sind, durch einen effizienten sprungbasierten Ansatz. Zweitens minimiert Temporal Dimension Token Merging (TDTM) die intensive Token-Verarbeitung in Aufmerksamkeitsschichten, indem aufeinanderfolgende Tokens entlang der zeitlichen Dimension zusammengeführt werden. Drittens partitioniert Concurrent Inference with Dynamic Loading (CI-DL) große Modelle dynamisch in kleinere Blöcke und lädt sie in den Speicher für gleichzeitige Modellinferenz, um effektiv den Herausforderungen des begrenzten Gerätespeichers zu begegnen. Wir implementieren On-device Sora auf dem iPhone 15 Pro, und experimentelle Evaluationen zeigen, dass es in der Lage ist, hochwertige Videos auf dem Gerät zu erzeugen, vergleichbar mit denen, die von Open-Sora auf leistungsstarken GPUs erstellt werden. Diese Ergebnisse zeigen, dass On-device Sora eine effiziente und hochwertige Videoerzeugung auf ressourcenbeschränkten mobilen Geräten ermöglicht, die Zugänglichkeit erweitert, die Benutzerdaten schützt, die Abhängigkeit von Cloud-Infrastruktur verringert und die damit verbundenen Kosten senkt. Wir sehen das vorgeschlagene On-device Sora als einen bedeutenden ersten Schritt zur Demokratisierung modernster generativer Technologien an, die Videoerzeugungsfähigkeiten auf handelsüblichen mobilen und eingebetteten Geräten ermöglichen. Die Code-Implementierung ist öffentlich auf einem GitHub-Repository verfügbar: https://github.com/eai-lab/On-device-Sora.

English

We present On-device Sora, a first pioneering solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. Building on Open-Sora, On-device Sora applies three novel techniques to address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations demonstrate that it is capable of generating high-quality videos on the device, comparable to those produced by Open-Sora running on high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices, expanding accessibility, ensuring user privacy, reducing dependence on cloud infrastructure, and lowering associated costs. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation capabilities on commodity mobile and embedded devices. The code implementation is publicly available at an GitHub repository: https://github.com/eai-lab/On-device-Sora.

On-Device Sora: Ermöglichen der Diffusionsbasierten Text-zu-Video-Erstellung für mobile Geräte

On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

papers.abstract

Support