ChatPaper.aiChatPaper

Flowception: Временное расширение сопоставления потоков для генерации видео

Flowception: Temporally Expansive Flow Matching for Video Generation

December 12, 2025
Авторы: Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen
cs.AI

Аннотация

Мы представляем Flowception — новую неавторегрессионную систему генерации видео переменной длины. Flowception изучает вероятностный путь, чередующий дискретные вставки кадров с непрерывным шумоподавлением кадров. По сравнению с авторегрессионными методами, Flowception снижает накопление ошибок и дрейф, поскольку механизм вставки кадров во время выборки служит эффективным механизмом сжатия для обработки долгосрочного контекста. По сравнению с методами полных последовательностей, наш подход сокращает FLOPs при обучении в три раза, лучше адаптируется к вариантам локального внимания и позволяет совместно изучать длину видео с их содержанием. Количественные эксперименты демонстрируют улучшение метрик FVD и VBench по сравнению с авторегрессионными и полнопоследовательными базовыми методами, что дополнительно подтверждается качественными результатами. Наконец, благодаря обучению вставке и шумоподавлению кадров в последовательности, Flowception обеспечивает бесшовную интеграцию различных задач, таких как генерация видео из изображений и интерполяция видео.
English
We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.
PDF32December 17, 2025