Autoamostragem de Vídeo com Refinamento Automático
Self-Refining Video Sampling
January 26, 2026
Autores: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang
cs.AI
Resumo
Os geradores de vídeo modernos ainda enfrentam dificuldades com dinâmicas físicas complexas, frequentemente ficando aquém do realismo físico. As abordagens existentes lidam com isso usando verificadores externos ou treinamento adicional em dados aumentados, o que é computacionalmente dispendioso e ainda limitado na captura de movimentos refinados. Neste trabalho, apresentamos a amostragem de vídeo com auto-refinamento, um método simples que usa um gerador de vídeo pré-treinado em conjuntos de dados em larga escala como seu próprio refinador. Ao interpretar o gerador como um autoencoder de remoção de ruído, permitimos um refinamento iterativo em loop interno durante a inferência, sem qualquer verificador externo ou treinamento adicional. Introduzimos ainda uma estratégia de refinamento consciente da incerteza que refina seletivamente regiões com base na auto-consistência, prevenindo artefatos causados por super-refinamento. Experimentos com geradores de vídeo state-of-the-art demonstram melhorias significativas na coerência do movimento e no alinhamento físico, alcançando mais de 70% de preferência humana em comparação com o amostrador padrão e o amostrador baseado em orientação.
English
Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.