ChatPaper.aiChatPaper

Sora sur appareil : permettre la génération de vidéo à partir de texte basée sur la diffusion pour les appareils mobiles

On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

February 5, 2025
Auteurs: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI

Résumé

Nous présentons On-device Sora, une première solution pionnière pour la génération de vidéos à partir de texte sur appareil, basée sur la diffusion et fonctionnant efficacement sur des appareils de qualité smartphone. En s'appuyant sur Open-Sora, On-device Sora applique trois techniques novatrices pour relever les défis de la génération de vidéos à partir de texte basée sur la diffusion sur des appareils mobiles limités en termes de calcul et de mémoire. Premièrement, le Saut Proportionnel Linéaire (LPL) réduit les étapes excessives de débruitage nécessaires dans la diffusion vidéo grâce à une approche basée sur des sauts efficaces. Deuxièmement, la Fusion de Jetons de Dimension Temporelle (TDTM) minimise le calcul intensif de traitement des jetons dans les couches d'attention en fusionnant les jetons consécutifs le long de la dimension temporelle. Troisièmement, l'Inférence Concurrente avec Chargement Dynamique (CI-DL) partitionne dynamiquement de grands modèles en blocs plus petits et les charge en mémoire pour une inférence de modèle concurrente, abordant efficacement les défis liés à la mémoire limitée de l'appareil. Nous mettons en œuvre On-device Sora sur l'iPhone 15 Pro, et les évaluations expérimentales démontrent qu'il est capable de générer des vidéos de haute qualité sur l'appareil, comparables à celles produites par Open-Sora fonctionnant sur des GPU haut de gamme. Ces résultats montrent qu'On-device Sora permet une génération de vidéos efficace et de haute qualité sur des appareils mobiles aux ressources limitées, élargissant l'accessibilité, garantissant la confidentialité des utilisateurs, réduisant la dépendance à l'infrastructure cloud et diminuant les coûts associés. Nous envisageons le On-device Sora proposé comme un premier pas significatif vers la démocratisation des technologies génératives de pointe, permettant des capacités de génération de vidéos sur des appareils mobiles et embarqués grand public. L'implémentation du code est publiquement disponible dans un dépôt GitHub : https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. Building on Open-Sora, On-device Sora applies three novel techniques to address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations demonstrate that it is capable of generating high-quality videos on the device, comparable to those produced by Open-Sora running on high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices, expanding accessibility, ensuring user privacy, reducing dependence on cloud infrastructure, and lowering associated costs. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation capabilities on commodity mobile and embedded devices. The code implementation is publicly available at an GitHub repository: https://github.com/eai-lab/On-device-Sora.

Summary

AI-Generated Summary

PDF123February 10, 2025