Sora sur appareil : permettre la génération de vidéo à partir de texte basée sur la diffusion pour les appareils mobiles
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
February 5, 2025
Auteurs: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI
Résumé
Nous présentons On-device Sora, une première solution pionnière pour la génération de vidéos à partir de texte sur appareil, basée sur la diffusion et fonctionnant efficacement sur des appareils de qualité smartphone. En s'appuyant sur Open-Sora, On-device Sora applique trois techniques novatrices pour relever les défis de la génération de vidéos à partir de texte basée sur la diffusion sur des appareils mobiles limités en termes de calcul et de mémoire. Premièrement, le Saut Proportionnel Linéaire (LPL) réduit les étapes excessives de débruitage nécessaires dans la diffusion vidéo grâce à une approche basée sur des sauts efficaces. Deuxièmement, la Fusion de Jetons de Dimension Temporelle (TDTM) minimise le calcul intensif de traitement des jetons dans les couches d'attention en fusionnant les jetons consécutifs le long de la dimension temporelle. Troisièmement, l'Inférence Concurrente avec Chargement Dynamique (CI-DL) partitionne dynamiquement de grands modèles en blocs plus petits et les charge en mémoire pour une inférence de modèle concurrente, abordant efficacement les défis liés à la mémoire limitée de l'appareil. Nous mettons en œuvre On-device Sora sur l'iPhone 15 Pro, et les évaluations expérimentales démontrent qu'il est capable de générer des vidéos de haute qualité sur l'appareil, comparables à celles produites par Open-Sora fonctionnant sur des GPU haut de gamme. Ces résultats montrent qu'On-device Sora permet une génération de vidéos efficace et de haute qualité sur des appareils mobiles aux ressources limitées, élargissant l'accessibilité, garantissant la confidentialité des utilisateurs, réduisant la dépendance à l'infrastructure cloud et diminuant les coûts associés. Nous envisageons le On-device Sora proposé comme un premier pas significatif vers la démocratisation des technologies génératives de pointe, permettant des capacités de génération de vidéos sur des appareils mobiles et embarqués grand public. L'implémentation du code est publiquement disponible dans un dépôt GitHub : https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based
on-device text-to-video generation that operates efficiently on
smartphone-grade devices. Building on Open-Sora, On-device Sora applies three
novel techniques to address the challenges of diffusion-based text-to-video
generation on computation- and memory-limited mobile devices. First, Linear
Proportional Leap (LPL) reduces the excessive denoising steps required in video
diffusion through an efficient leap-based approach. Second, Temporal Dimension
Token Merging (TDTM) minimizes intensive token-processing computation in
attention layers by merging consecutive tokens along the temporal dimension.
Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions
large models into smaller blocks and loads them into memory for concurrent
model inference, effectively addressing the challenges of limited device
memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental
evaluations demonstrate that it is capable of generating high-quality videos on
the device, comparable to those produced by Open-Sora running on high-end GPUs.
These results show that On-device Sora enables efficient and high-quality video
generation on resource-constrained mobile devices, expanding accessibility,
ensuring user privacy, reducing dependence on cloud infrastructure, and
lowering associated costs. We envision the proposed On-device Sora as a
significant first step toward democratizing state-of-the-art generative
technologies, enabling video generation capabilities on commodity mobile and
embedded devices. The code implementation is publicly available at an GitHub
repository: https://github.com/eai-lab/On-device-Sora.Summary
AI-Generated Summary