FlowLong: Generación de videos largos en tiempo de inferencia mediante emparejamiento de Tweedie con restricción de variedad

Resumen

Extender el horizonte de generación de los modelos de difusión de video a secuencias largas sigue siendo un desafío importante y de larga data. Los enfoques existentes sin entrenamiento se dividen en dos categorías: extensiones de modelos bidireccionales, que están estrechamente acopladas a arquitecturas específicas y sufren de degradación de calidad en horizontes largos, y modelos autorregresivos, que acumulan errores de deriva debido al sesgo de exposición y tienden a producir patrones de movimiento repetitivos. Para abordar estos problemas, proponemos un enfoque novedoso pero simple en tiempo de inferencia para la generación de videos largos, que es independiente de la arquitectura y no requiere entrenamiento adicional. Nuestro método genera videos largos mediante ventanas deslizantes superpuestas, donde las muestras limpias predichas de ventanas adyacentes se combinan mediante el emparejamiento de Tweedie para imponer tanto la restricción de variedad como la consistencia temporal en las regiones de superposición. Luego, el muestreo estocástico en fase temprana sincroniza las trayectorias de cada ventana inyectando ruido fresco después de cada corrección de emparejamiento de Tweedie en la fase de alto ruido, antes de transitar al muestreo determinista ODE para preservar la fidelidad visual de grano fino. Aplicado a varios modelos de generación de video, nuestro método genera videos varias veces más largos que la longitud de ventana nativa, superando tanto a las líneas base sin entrenamiento como a las autorregresivas en consistencia temporal y calidad visual, y se extiende además a la generación conjunta de audio y video y a texto a 3DGS sin necesidad de ajuste fino.

English

Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via Tweedie matching to enforce both manifold constraint and temporal consistency across overlap regions. Stochastic early-phase sampling then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.