On-device Sora: Het mogelijk maken van op diffusie gebaseerde tekst-naar-video generatie voor mobiele apparaten.
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
February 5, 2025
Auteurs: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI
Samenvatting
Wij presenteren On-device Sora, een eerste baanbrekende oplossing voor op diffusie gebaseerde tekst-naar-video generatie die efficiënt werkt op smartphone-grade apparaten. Voortbouwend op Open-Sora, past On-device Sora drie nieuwe technieken toe om de uitdagingen van op diffusie gebaseerde tekst-naar-video generatie op reken- en geheugenbeperkte mobiele apparaten aan te pakken. Ten eerste vermindert Lineaire Proportionele Sprong (LPL) de overmatige denoising-stappen die nodig zijn in video diffusie door middel van een efficiënte sprong-gebaseerde benadering. Ten tweede minimaliseert Temporele Dimensie Token Samenvoeging (TDTM) intensieve token-verwerkingsberekeningen in aandachtslagen door opeenvolgende tokens langs de temporele dimensie samen te voegen. Ten derde verdeelt Concurrent Inferentie met Dynamische Laden (CI-DL) grote modellen dynamisch in kleinere blokken en laadt ze in het geheugen voor gelijktijdige modelinferentie, waarbij effectief wordt ingegaan op de uitdagingen van beperkt apparaatgeheugen. We implementeren On-device Sora op de iPhone 15 Pro, en de experimentele evaluaties tonen aan dat het in staat is om hoogwaardige video's op het apparaat te genereren, vergelijkbaar met die geproduceerd door Open-Sora op high-end GPU's. Deze resultaten tonen aan dat On-device Sora efficiënte en hoogwaardige videogeneratie mogelijk maakt op resource-beperkte mobiele apparaten, waardoor toegankelijkheid wordt vergroot, gebruikersprivacy wordt gewaarborgd, afhankelijkheid van cloud-infrastructuur wordt verminderd en gerelateerde kosten worden verlaagd. Wij zien het voorgestelde On-device Sora als een belangrijke eerste stap naar democratisering van toonaangevende generatieve technologieën, waardoor videogeneratiemogelijkheden op alledaagse mobiele en embedded apparaten worden mogelijk gemaakt. De code-implementatie is openbaar beschikbaar op een GitHub repository: https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based
on-device text-to-video generation that operates efficiently on
smartphone-grade devices. Building on Open-Sora, On-device Sora applies three
novel techniques to address the challenges of diffusion-based text-to-video
generation on computation- and memory-limited mobile devices. First, Linear
Proportional Leap (LPL) reduces the excessive denoising steps required in video
diffusion through an efficient leap-based approach. Second, Temporal Dimension
Token Merging (TDTM) minimizes intensive token-processing computation in
attention layers by merging consecutive tokens along the temporal dimension.
Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions
large models into smaller blocks and loads them into memory for concurrent
model inference, effectively addressing the challenges of limited device
memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental
evaluations demonstrate that it is capable of generating high-quality videos on
the device, comparable to those produced by Open-Sora running on high-end GPUs.
These results show that On-device Sora enables efficient and high-quality video
generation on resource-constrained mobile devices, expanding accessibility,
ensuring user privacy, reducing dependence on cloud infrastructure, and
lowering associated costs. We envision the proposed On-device Sora as a
significant first step toward democratizing state-of-the-art generative
technologies, enabling video generation capabilities on commodity mobile and
embedded devices. The code implementation is publicly available at an GitHub
repository: https://github.com/eai-lab/On-device-Sora.Summary
AI-Generated Summary