Campionamento Video con Auto-Miglioramento

Abstract

I generatori video moderni continuano a lottare con dinamiche fisiche complesse, spesso risultando carenti in realismo fisico. Gli approcci esistenti affrontano questo problema utilizzando verificatori esterni o addestramento aggiuntivo su dati aumentati, soluzioni computazionalmente costose e comunque limitate nella capacità di catturare movimenti di fine granularità. In questo lavoro, presentiamo il *self-refining video sampling*, un metodo semplice che utilizza un generatore video pre-addestrato su dataset su larga scala come proprio raffinatore interno. Interpretando il generatore come un autoencoder denoiser, abilitiamo un raffinamento iterativo in-loop al momento dell'inferenza, senza alcun verificatore esterno o addestramento aggiuntivo. Introduciamo inoltre una strategia di raffinamento *uncertainty-aware* che perfeziona selettivamente le regioni in base all'auto-consistenza, prevenendo così artefatti causati da un eccessivo raffinamento. Esperimenti condotti su generatori video all'avanguardia dimostrano miglioramenti significativi nella coerenza del movimento e nell'allineamento fisico, raggiungendo una preferenza umana superiore al 70% rispetto al campionatore predefinito e a quello basato su *guidance*.

English

Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.

Campionamento Video con Auto-Miglioramento

Self-Refining Video Sampling

Abstract

Support