Sora su dispositivo: Abilitazione della generazione di video da testo basata sulla diffusione per dispositivi mobili
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
February 5, 2025
Autori: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI
Abstract
Presentiamo On-device Sora, una prima soluzione pionieristica per la generazione di video da testo basata sulla diffusione che opera in modo efficiente su dispositivi di fascia smartphone. Basandosi su Open-Sora, On-device Sora applica tre tecniche innovative per affrontare le sfide della generazione di video da testo basata sulla diffusione su dispositivi mobili con limitazioni computazionali e di memoria. In primo luogo, il Salto Lineare Proporzionale (LPL) riduce i passaggi eccessivi di denoising richiesti nella diffusione video attraverso un approccio basato su salti efficiente. In secondo luogo, la Fusione di Token Dimensionale Temporale (TDTM) riduce al minimo il calcolo intensivo di elaborazione dei token nei livelli di attenzione fondendo i token consecutivi lungo la dimensione temporale. In terzo luogo, l'Inferenza Concorrente con Caricamento Dinamico (CI-DL) partiziona dinamicamente modelli di grandi dimensioni in blocchi più piccoli e li carica in memoria per l'inferenza del modello concorrente, affrontando efficacemente le sfide della memoria limitata del dispositivo. Implementiamo On-device Sora su iPhone 15 Pro e le valutazioni sperimentali dimostrano che è in grado di generare video di alta qualità sul dispositivo, paragonabili a quelli prodotti da Open-Sora in esecuzione su GPU di fascia alta. Questi risultati mostrano che On-device Sora consente la generazione efficiente e di alta qualità di video su dispositivi mobili con risorse limitate, ampliando l'accessibilità, garantendo la privacy dell'utente, riducendo la dipendenza dall'infrastruttura cloud e abbassando i costi associati. Immaginiamo il proposto On-device Sora come un significativo primo passo verso la democratizzazione delle tecnologie generative all'avanguardia, consentendo capacità di generazione video su dispositivi mobili ed embedded di uso comune. L'implementazione del codice è pubblicamente disponibile in un repository GitHub: https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based
on-device text-to-video generation that operates efficiently on
smartphone-grade devices. Building on Open-Sora, On-device Sora applies three
novel techniques to address the challenges of diffusion-based text-to-video
generation on computation- and memory-limited mobile devices. First, Linear
Proportional Leap (LPL) reduces the excessive denoising steps required in video
diffusion through an efficient leap-based approach. Second, Temporal Dimension
Token Merging (TDTM) minimizes intensive token-processing computation in
attention layers by merging consecutive tokens along the temporal dimension.
Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions
large models into smaller blocks and loads them into memory for concurrent
model inference, effectively addressing the challenges of limited device
memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental
evaluations demonstrate that it is capable of generating high-quality videos on
the device, comparable to those produced by Open-Sora running on high-end GPUs.
These results show that On-device Sora enables efficient and high-quality video
generation on resource-constrained mobile devices, expanding accessibility,
ensuring user privacy, reducing dependence on cloud infrastructure, and
lowering associated costs. We envision the proposed On-device Sora as a
significant first step toward democratizing state-of-the-art generative
technologies, enabling video generation capabilities on commodity mobile and
embedded devices. The code implementation is publicly available at an GitHub
repository: https://github.com/eai-lab/On-device-Sora.Summary
AI-Generated Summary