Sora su dispositivo: Abilitazione della generazione di video da testo basata sulla diffusione per dispositivi mobili

Abstract

Presentiamo On-device Sora, una prima soluzione pionieristica per la generazione di video da testo basata sulla diffusione che opera in modo efficiente su dispositivi di fascia smartphone. Basandosi su Open-Sora, On-device Sora applica tre tecniche innovative per affrontare le sfide della generazione di video da testo basata sulla diffusione su dispositivi mobili con limitazioni computazionali e di memoria. In primo luogo, il Salto Lineare Proporzionale (LPL) riduce i passaggi eccessivi di denoising richiesti nella diffusione video attraverso un approccio basato su salti efficiente. In secondo luogo, la Fusione di Token Dimensionale Temporale (TDTM) riduce al minimo il calcolo intensivo di elaborazione dei token nei livelli di attenzione fondendo i token consecutivi lungo la dimensione temporale. In terzo luogo, l'Inferenza Concorrente con Caricamento Dinamico (CI-DL) partiziona dinamicamente modelli di grandi dimensioni in blocchi più piccoli e li carica in memoria per l'inferenza del modello concorrente, affrontando efficacemente le sfide della memoria limitata del dispositivo. Implementiamo On-device Sora su iPhone 15 Pro e le valutazioni sperimentali dimostrano che è in grado di generare video di alta qualità sul dispositivo, paragonabili a quelli prodotti da Open-Sora in esecuzione su GPU di fascia alta. Questi risultati mostrano che On-device Sora consente la generazione efficiente e di alta qualità di video su dispositivi mobili con risorse limitate, ampliando l'accessibilità, garantendo la privacy dell'utente, riducendo la dipendenza dall'infrastruttura cloud e abbassando i costi associati. Immaginiamo il proposto On-device Sora come un significativo primo passo verso la democratizzazione delle tecnologie generative all'avanguardia, consentendo capacità di generazione video su dispositivi mobili ed embedded di uso comune. L'implementazione del codice è pubblicamente disponibile in un repository GitHub: https://github.com/eai-lab/On-device-Sora.

English

We present On-device Sora, a first pioneering solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. Building on Open-Sora, On-device Sora applies three novel techniques to address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations demonstrate that it is capable of generating high-quality videos on the device, comparable to those produced by Open-Sora running on high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices, expanding accessibility, ensuring user privacy, reducing dependence on cloud infrastructure, and lowering associated costs. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation capabilities on commodity mobile and embedded devices. The code implementation is publicly available at an GitHub repository: https://github.com/eai-lab/On-device-Sora.

Sora su dispositivo: Abilitazione della generazione di video da testo basata sulla diffusione per dispositivi mobili

On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

Abstract

Support