Zelfverbeterende Video-bemonstering

Samenvatting

Moderne videogeneratoren hebben nog steeds moeite met complexe fysieke dynamiek en slagen vaak niet in fysische realisme. Bestaande benaderingen pakken dit aan met externe verificatoren of aanvullende training op uitgebreide data, wat rekenkundig kostbaar is en nog steeds beperkt in het vastleggen van fijnmazige beweging. In dit werk presenteren we zelfverfijnende videobemonstering, een eenvoudige methode die een voorgetrainde videogenerator, getraind op grootschalige datasets, als zijn eigen verfijner gebruikt. Door de generator te interpreteren als een ruisonderdrukkende auto-encoder, maken we iteratieve verfijning in de innerlijke lus mogelijk tijdens inferentie, zonder externe verificator of aanvullende training. We introduceren verder een onzekerheidsbewuste verfijningsstrategie die selectief regio's verfijnt op basis van zelfconsistentie, wat artefacten door oververfijning voorkomt. Experimenten met state-of-the-art videogeneratoren tonen significante verbeteringen in bewegingscoherentie en fysica-overeenstemming, met meer dan 70% menselijke voorkeur vergeleken met de standaardbemonsteraar en op sturing gebaseerde bemonsteraar.

English

Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.

Zelfverbeterende Video-bemonstering

Self-Refining Video Sampling

Samenvatting

Support