Échantillonnage vidéo auto-optimisé
Self-Refining Video Sampling
January 26, 2026
papers.authors: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang
cs.AI
papers.abstract
Les générateurs vidéo modernes peinent encore à reproduire des dynamiques physiques complexes, manquant souvent de réalisme physique. Les approches existantes tentent de résoudre ce problème en utilisant des vérificateurs externes ou un entraînement supplémentaire sur des données augmentées, ce qui est coûteux en calcul et reste limité pour capturer des mouvements fins. Dans ce travail, nous présentons l'échantillonnage vidéo auto-affiné, une méthode simple qui utilise un générateur vidéo pré-entraîné sur de vastes jeux de données comme son propre affineur. En interprétant le générateur comme un auto-encodeur à débruitage, nous permettons un affinement itératif en boucle interne lors de l'inférence, sans aucun vérificateur externe ni entraînement supplémentaire. Nous introduisons en outre une stratégie d'affinement sensible à l'incertitude qui affine sélectivement les régions en fonction de l'auto-cohérence, évitant ainsi les artefacts causés par un suraffinement. Les expériences sur des générateurs vidéo de pointe démontrent des améliorations significatives en cohérence du mouvement et en alignement physique, obtenant une préférence humaine supérieure à 70 % par rapport à l'échantillonneur par défaut et à l'échantillonneur par guidage.
English
Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.