FlowLong : Génération de vidéos longues en temps d’inférence via l’appariement de Tweedie contraint par la variété

Résumé

Étendre l’horizon de génération des modèles de diffusion vidéo à de longues séquences demeure un défi de longue date et d’une importance capitale. Les approches existantes sans entraînement se répartissent en deux catégories : les extensions de modèles bidirectionnels, étroitement liées à des architectures spécifiques et souffrant d’une dégradation de qualité sur de longs horizons, et les modèles autorégressifs, qui accumulent des erreurs de dérive dues au biais d’exposition et tendent à produire des schémas de mouvement répétitifs. Pour remédier à ces problèmes, nous proposons une approche nouvelle mais simple, au moment de l’inférence, pour la génération de vidéos longues, indépendante de l’architecture et ne nécessitant aucun entraînement supplémentaire. Notre méthode génère des vidéos longues via des fenêtres glissantes avec chevauchement, où les échantillons propres prédits issus de fenêtres adjacentes sont fusionnés par appariement de Tweedie afin d’imposer à la fois une contrainte de variété et une cohérence temporelle dans les régions de chevauchement. Un échantillonnage stochastique en phase précoce synchronise ensuite les trajectoires de chaque fenêtre en injectant un bruit frais après chaque correction d’appariement de Tweedie dans la phase de bruit élevé, avant de passer à un échantillonnage ODE déterministe pour préserver une fidélité visuelle fine. Appliquée à divers modèles de génération vidéo, notre méthode génère des vidéos plusieurs fois plus longues que la longueur native de la fenêtre, tout en surpassant les références sans entraînement et autorégressives en termes de cohérence temporelle et de qualité visuelle, et s’étend en outre à la génération conjointe audio-vidéo et au text-to-3DGS sans aucun réglage fin.

English

Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via Tweedie matching to enforce both manifold constraint and temporal consistency across overlap regions. Stochastic early-phase sampling then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.