FlowLong: Инференс-временная генерация длинных видео посредством многообразие-ограниченного сопоставления Твиди

Аннотация

Увеличение горизонта генерации моделей диффузии видео до длинных последовательностей остается давней и важной проблемой. Существующие методы, не требующие обучения, делятся на две категории: расширения двунаправленных моделей, которые тесно связаны с конкретными архитектурами и страдают от ухудшения качества на больших горизонтах, и авторегрессионные модели, которые накапливают ошибки дрейфа из-за экспозиционного смещения и склонны генерировать повторяющиеся паттерны движения. Для решения этих проблем мы предлагаем новый, но простой метод на этапе инференса для генерации длинных видео, который не зависит от архитектуры и не требует дополнительного обучения. Наш метод генерирует длинные видео с помощью перекрывающихся скользящих окон, где предсказанные чистые образцы из соседних окон смешиваются через согласование Твиди (Tweedie matching) для обеспечения как ограничения многообразия, так и временной согласованности в областях перекрытия. Затем стохастическая выборка на ранней фазе синхронизирует траектории каждого окна путем инжекции нового шума после каждой коррекции согласования Твиди на этапе высокого шума, перед переходом к детерминистической выборке ODE для сохранения точной визуальной детализации. Примененный к различным моделям генерации видео, наш метод генерирует видео в несколько раз длиннее исходной длины окна, превосходя как методы без обучения, так и авторегрессионные базовые линии по временной согласованности и визуальному качеству, а также расширяется на совместную генерацию аудио-видео и текст-в-3DGS без какого-либо дообучения.

English

Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via Tweedie matching to enforce both manifold constraint and temporal consistency across overlap regions. Stochastic early-phase sampling then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.