Технический отчет по LongCat-Video
LongCat-Video Technical Report
October 25, 2025
Авторы: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI
Аннотация
Генерация видео является ключевым направлением в создании моделей мира, где эффективный вывод длинных видео представляет собой важнейшую capability. В этом контексте мы представляем LongCat-Video — базовую модель генерации видео с 13,6 миллиардами параметров, демонстрирующую высокую производительность в различных задачах генерации видео. Она особенно преуспевает в эффективном создании качественных длинных видео, что знаменует наш первый шаг к моделям мира. Ключевые особенности включают: Унифицированную архитектуру для множества задач: построенная на основе фреймворка Diffusion Transformer (DiT), LongCat-Video поддерживает задачи Text-to-Video, Image-to-Video и Video-Continuation в рамках единой модели; Генерацию длинных видео: предварительное обучение на задачах Video-Continuation позволяет LongCat-Video сохранять высокое качество и временную согласованность при создании видео продолжительностью в минуты; Эффективный вывод: LongCat-Video генерирует видео 720p, 30 кадров/с за считанные минуты благодаря использованию стратегии генерации от грубого к точному по временной и пространственной осям. Блочно-разреженное внимание (Block Sparse Attention) дополнительно повышает эффективность, особенно при высоких разрешениях; Высокую производительность благодаря Multi-reward RLHF: обучение с подкреплением на основе множественных вознаграждений позволяет LongCat-Video достигать результатов, сопоставимых с новейшими проприетарными и ведущими открытыми моделями. Код и веса модели общедоступны для ускорения прогресса в данной области.
English
Video generation is a critical pathway toward world models, with efficient
long video inference as a key capability. Toward this end, we introduce
LongCat-Video, a foundational video generation model with 13.6B parameters,
delivering strong performance across multiple video generation tasks. It
particularly excels in efficient and high-quality long video generation,
representing our first step toward world models. Key features include: Unified
architecture for multiple tasks: Built on the Diffusion Transformer (DiT)
framework, LongCat-Video supports Text-to-Video, Image-to-Video, and
Video-Continuation tasks with a single model; Long video generation:
Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high
quality and temporal coherence in the generation of minutes-long videos;
Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes
by employing a coarse-to-fine generation strategy along both the temporal and
spatial axes. Block Sparse Attention further enhances efficiency, particularly
at high resolutions; Strong performance with multi-reward RLHF: Multi-reward
RLHF training enables LongCat-Video to achieve performance on par with the
latest closed-source and leading open-source models. Code and model weights are
publicly available to accelerate progress in the field.