Selbstoptimierende Videostichprobenentnahme
Self-Refining Video Sampling
January 26, 2026
papers.authors: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang
cs.AI
papers.abstract
Moderne Videogeneratoren haben nach wie vor Schwierigkeiten mit komplexen physikalischen Dynamiken und erreichen oft keine physikalische Realität. Bestehende Ansätze adressieren dies durch externe Verifizierer oder zusätzliches Training mit augmentierten Daten, was rechenintensiv ist und die Erfassung fein abgestufter Bewegungen weiterhin limitiert. In dieser Arbeit stellen wir selbstverfeinernde Video-Sampling vor, eine einfache Methode, die einen vortrainierten Videogenerator, trainiert auf großangelegten Datensätzen, als eigenen Verfeinerer nutzt. Indem wir den Generator als entrauschenden Autoencoder interpretieren, ermöglichen wir iterative Verfeinerung innerhalb einer inneren Schleife zur Inferenzzeit, ohne externe Verifizierer oder zusätzliches Training. Wir führen zudem eine ungewissheitsbewusste Verfeinerungsstrategie ein, die Regionen basierend auf Selbstkonsistenz selektiv verfeinert und so Artefakte durch Überverfeinerung verhindert. Experimente mit modernsten Videogeneratoren zeigen signifikante Verbesserungen in Bewegungs-Kohärenz und Physik-Ausrichtung und erzielen über 70\% menschliche Präferenz im Vergleich zum Standard-Sampler und führungsbasiertem Sampler.
English
Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.