ChatPaper.aiChatPaper

Muestreo de Video con Autoajuste

Self-Refining Video Sampling

January 26, 2026
Autores: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang
cs.AI

Resumen

Los generadores de vídeo modernos aún presentan dificultades para representar dinámicas físicas complejas, a menudo sin alcanzar un realismo físico satisfactorio. Los enfoques existentes abordan este problema mediante verificadores externos o entrenamiento adicional con datos aumentados, lo cual es computacionalmente costoso y sigue siendo limitado para capturar movimientos detallados. En este trabajo, presentamos el muestreo de vídeo auto-refinado, un método simple que utiliza un generador de vídeo preentrenado en conjuntos de datos a gran escala como su propio refinador. Al interpretar el generador como un autoencoder de eliminación de ruido, permitimos un refinamiento iterativo interno durante la inferencia sin necesidad de verificadores externos ni entrenamiento adicional. Además, introducimos una estrategia de refinamiento consciente de la incertidumbre que refina selectivamente las regiones basándose en la auto-consistencia, lo que evita artefactos causados por un refinamiento excesivo. Los experimentos con generadores de vídeo de última generación demuestran mejoras significativas en la coherencia del movimiento y la alineación física, logrando una preferencia humana superior al 70% en comparación con el muestreador por defecto y el muestreador basado en guías.
English
Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.
PDF152January 28, 2026