Sora en dispositivo: Habilitando la Generación de Video a partir de Texto basada en Difusión para Dispositivos Móviles
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
February 5, 2025
Autores: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI
Resumen
Presentamos On-device Sora, una solución pionera para la generación de texto a video en dispositivos que opera eficientemente en dispositivos de grado smartphone. Basándose en Open-Sora, On-device Sora aplica tres técnicas novedosas para abordar los desafíos de la generación de texto a video basada en difusión en dispositivos móviles con limitaciones de computación y memoria. En primer lugar, el Salto Proporcional Lineal (LPL) reduce los pasos excesivos de eliminación de ruido requeridos en la difusión de video a través de un enfoque eficiente basado en saltos. En segundo lugar, la Fusión de Tokens de Dimensión Temporal (TDTM) minimiza la intensiva computación de procesamiento de tokens en capas de atención al fusionar tokens consecutivos a lo largo de la dimensión temporal. En tercer lugar, la Inferencia Concurrente con Carga Dinámica (CI-DL) divide dinámicamente modelos grandes en bloques más pequeños y los carga en memoria para inferencia de modelos concurrentes, abordando eficazmente los desafíos de la memoria limitada del dispositivo. Implementamos On-device Sora en el iPhone 15 Pro, y las evaluaciones experimentales demuestran que es capaz de generar videos de alta calidad en el dispositivo, comparables a los producidos por Open-Sora en GPUs de alta gama. Estos resultados muestran que On-device Sora permite una generación eficiente y de alta calidad de videos en dispositivos móviles con recursos limitados, ampliando la accesibilidad, garantizando la privacidad del usuario, reduciendo la dependencia de la infraestructura en la nube y disminuyendo los costos asociados. Visualizamos al propuesto On-device Sora como un importante primer paso hacia la democratización de tecnologías generativas de vanguardia, permitiendo capacidades de generación de video en dispositivos móviles y embebidos de uso común. La implementación del código está disponible públicamente en un repositorio de GitHub: https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based
on-device text-to-video generation that operates efficiently on
smartphone-grade devices. Building on Open-Sora, On-device Sora applies three
novel techniques to address the challenges of diffusion-based text-to-video
generation on computation- and memory-limited mobile devices. First, Linear
Proportional Leap (LPL) reduces the excessive denoising steps required in video
diffusion through an efficient leap-based approach. Second, Temporal Dimension
Token Merging (TDTM) minimizes intensive token-processing computation in
attention layers by merging consecutive tokens along the temporal dimension.
Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions
large models into smaller blocks and loads them into memory for concurrent
model inference, effectively addressing the challenges of limited device
memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental
evaluations demonstrate that it is capable of generating high-quality videos on
the device, comparable to those produced by Open-Sora running on high-end GPUs.
These results show that On-device Sora enables efficient and high-quality video
generation on resource-constrained mobile devices, expanding accessibility,
ensuring user privacy, reducing dependence on cloud infrastructure, and
lowering associated costs. We envision the proposed On-device Sora as a
significant first step toward democratizing state-of-the-art generative
technologies, enabling video generation capabilities on commodity mobile and
embedded devices. The code implementation is publicly available at an GitHub
repository: https://github.com/eai-lab/On-device-Sora.Summary
AI-Generated Summary