ChatPaper.aiChatPaper

Sora на устройстве: обеспечение генерации текста в видео на основе диффузии для мобильных устройств

On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

February 5, 2025
Авторы: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI

Аннотация

Мы представляем On-device Sora, первое передовое решение для генерации видео из текста на устройстве на основе диффузии, которое эффективно работает на устройствах уровня смартфона. Основываясь на Open-Sora, On-device Sora применяет три новаторских техники для решения проблем генерации видео из текста на основе диффузии на вычислительно и памятью ограниченных мобильных устройствах. Во-первых, Линейный Пропорциональный Скачок (Linear Proportional Leap, LPL) уменьшает избыточные шаги денойзинга, необходимые для диффузии видео, через эффективный подход на основе скачков. Во-вторых, Слияние Токенов по Временной Измеримости (Temporal Dimension Token Merging, TDTM) минимизирует интенсивные вычисления обработки токенов в слоях внимания путем слияния последовательных токенов вдоль временного измерения. В-третьих, Параллельный Вывод с Динамической Загрузкой (Concurrent Inference with Dynamic Loading, CI-DL) динамически разбивает большие модели на более мелкие блоки и загружает их в память для параллельного вывода модели, эффективно решая проблемы ограниченной памяти устройства. Мы реализуем On-device Sora на iPhone 15 Pro, и экспериментальные оценки показывают, что он способен генерировать видео высокого качества на устройстве, сравнимого с теми, которые производит Open-Sora на высокопроизводительных GPU. Эти результаты показывают, что On-device Sora обеспечивает эффективную и высококачественную генерацию видео на ресурсоемких мобильных устройствах, расширяя доступность, обеспечивая конфиденциальность пользователей, уменьшая зависимость от облачной инфраструктуры и снижая связанные издержки. Мы видим предложенный On-device Sora как значительный первый шаг к демократизации передовых генеративных технологий, обеспечивая возможности генерации видео на обычных мобильных и встроенных устройствах. Реализация кода общедоступна в репозитории GitHub: https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. Building on Open-Sora, On-device Sora applies three novel techniques to address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations demonstrate that it is capable of generating high-quality videos on the device, comparable to those produced by Open-Sora running on high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices, expanding accessibility, ensuring user privacy, reducing dependence on cloud infrastructure, and lowering associated costs. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation capabilities on commodity mobile and embedded devices. The code implementation is publicly available at an GitHub repository: https://github.com/eai-lab/On-device-Sora.

Summary

AI-Generated Summary

PDF123February 10, 2025