On-Device Sora: Ermöglichen der Diffusionsbasierten Text-zu-Video-Erstellung für mobile Geräte
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
February 5, 2025
Autoren: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI
Zusammenfassung
Wir präsentieren On-device Sora, eine wegweisende Lösung für die auf Diffusion basierende Text-zu-Video-Erzeugung auf Mobilgeräten, die effizient auf Geräten der Smartphone-Klasse arbeitet. Aufbauend auf Open-Sora wendet On-device Sora drei neuartige Techniken an, um den Herausforderungen der auf Diffusion basierenden Text-zu-Video-Erzeugung auf rechen- und speicherbegrenzten mobilen Geräten zu begegnen. Erstens reduziert Linear Proportional Leap (LPL) die übermäßigen Rauschunterdrückungsschritte, die für die Video-Diffusion erforderlich sind, durch einen effizienten sprungbasierten Ansatz. Zweitens minimiert Temporal Dimension Token Merging (TDTM) die intensive Token-Verarbeitung in Aufmerksamkeitsschichten, indem aufeinanderfolgende Tokens entlang der zeitlichen Dimension zusammengeführt werden. Drittens partitioniert Concurrent Inference with Dynamic Loading (CI-DL) große Modelle dynamisch in kleinere Blöcke und lädt sie in den Speicher für gleichzeitige Modellinferenz, um effektiv den Herausforderungen des begrenzten Gerätespeichers zu begegnen. Wir implementieren On-device Sora auf dem iPhone 15 Pro, und experimentelle Evaluationen zeigen, dass es in der Lage ist, hochwertige Videos auf dem Gerät zu erzeugen, vergleichbar mit denen, die von Open-Sora auf leistungsstarken GPUs erstellt werden. Diese Ergebnisse zeigen, dass On-device Sora eine effiziente und hochwertige Videoerzeugung auf ressourcenbeschränkten mobilen Geräten ermöglicht, die Zugänglichkeit erweitert, die Benutzerdaten schützt, die Abhängigkeit von Cloud-Infrastruktur verringert und die damit verbundenen Kosten senkt. Wir sehen das vorgeschlagene On-device Sora als einen bedeutenden ersten Schritt zur Demokratisierung modernster generativer Technologien an, die Videoerzeugungsfähigkeiten auf handelsüblichen mobilen und eingebetteten Geräten ermöglichen. Die Code-Implementierung ist öffentlich auf einem GitHub-Repository verfügbar: https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based
on-device text-to-video generation that operates efficiently on
smartphone-grade devices. Building on Open-Sora, On-device Sora applies three
novel techniques to address the challenges of diffusion-based text-to-video
generation on computation- and memory-limited mobile devices. First, Linear
Proportional Leap (LPL) reduces the excessive denoising steps required in video
diffusion through an efficient leap-based approach. Second, Temporal Dimension
Token Merging (TDTM) minimizes intensive token-processing computation in
attention layers by merging consecutive tokens along the temporal dimension.
Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions
large models into smaller blocks and loads them into memory for concurrent
model inference, effectively addressing the challenges of limited device
memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental
evaluations demonstrate that it is capable of generating high-quality videos on
the device, comparable to those produced by Open-Sora running on high-end GPUs.
These results show that On-device Sora enables efficient and high-quality video
generation on resource-constrained mobile devices, expanding accessibility,
ensuring user privacy, reducing dependence on cloud infrastructure, and
lowering associated costs. We envision the proposed On-device Sora as a
significant first step toward democratizing state-of-the-art generative
technologies, enabling video generation capabilities on commodity mobile and
embedded devices. The code implementation is publicly available at an GitHub
repository: https://github.com/eai-lab/On-device-Sora.Summary
AI-Generated Summary