ChatPaper.aiChatPaper

Самоусовершенствующийся метод видеосэмплирования

Self-Refining Video Sampling

January 26, 2026
Авторы: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang
cs.AI

Аннотация

Современные генераторы видео по-прежнему испытывают трудности с моделированием сложной физической динамики, часто не достигая физического реализма. Существующие подходы решают эту проблему с помощью внешних верификаторов или дополнительного обучения на аугментированных данных, что требует больших вычислительных затрат и все же ограничено в передаче мелкодетализированного движения. В данной работе мы представляем самоуточняющую выборку видео — простой метод, который использует предварительно обученный генератор видео, обученный на крупномасштабных наборах данных, в качестве собственного уточнителя. Интерпретируя генератор как денизующий автоэнкодер, мы обеспечиваем итеративное уточнение во внутреннем цикле во время вывода без каких-либо внешних верификаторов или дополнительного обучения. Мы также вводим стратегию уточнения, учитывающую неопределенность, которая выборочно улучшает области на основе самосогласованности, что предотвращает артефакты, вызванные избыточным уточнением. Эксперименты на передовых генераторах видео демонстрируют значительное улучшение согласованности движения и соответствия физическим законам, достигая более 70% предпочтения человеком по сравнению со стандартным сэмплером и сэмплером на основе управления.
English
Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.
PDF152January 28, 2026