Технический отчет по LongCat-Video

Аннотация

Генерация видео является ключевым направлением в создании моделей мира, где эффективный вывод длинных видео представляет собой важнейшую capability. В этом контексте мы представляем LongCat-Video — базовую модель генерации видео с 13,6 миллиардами параметров, демонстрирующую высокую производительность в различных задачах генерации видео. Она особенно преуспевает в эффективном создании качественных длинных видео, что знаменует наш первый шаг к моделям мира. Ключевые особенности включают: Унифицированную архитектуру для множества задач: построенная на основе фреймворка Diffusion Transformer (DiT), LongCat-Video поддерживает задачи Text-to-Video, Image-to-Video и Video-Continuation в рамках единой модели; Генерацию длинных видео: предварительное обучение на задачах Video-Continuation позволяет LongCat-Video сохранять высокое качество и временную согласованность при создании видео продолжительностью в минуты; Эффективный вывод: LongCat-Video генерирует видео 720p, 30 кадров/с за считанные минуты благодаря использованию стратегии генерации от грубого к точному по временной и пространственной осям. Блочно-разреженное внимание (Block Sparse Attention) дополнительно повышает эффективность, особенно при высоких разрешениях; Высокую производительность благодаря Multi-reward RLHF: обучение с подкреплением на основе множественных вознаграждений позволяет LongCat-Video достигать результатов, сопоставимых с новейшими проприетарными и ведущими открытыми моделями. Код и веса модели общедоступны для ускорения прогресса в данной области.

English

Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.

Технический отчет по LongCat-Video

LongCat-Video Technical Report

Аннотация

Support