자기 개선 비디오 샘플링
Self-Refining Video Sampling
January 26, 2026
저자: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang
cs.AI
초록
현대 비디오 생성기는 여전히 복잡한 물리 역학을 구현하는 데 어려움을 겪으며, 물리적 현실감을 충분히 구현하지 못하는 경우가 많습니다. 기존 접근법은 외부 검증기나 증강 데이터에 대한 추가 학습을 사용하여 이 문제를 해결하지만, 이는 계산 비용이 많이 들고 세밀한 운동을 포착하는 데 여전히 한계가 있습니다. 본 연구에서는 대규모 데이터셋으로 사전 학습된 비디오 생성기를 자체 정제기로 활용하는 간단한 방법인 자기 정제 비디오 샘플링을 제안합니다. 생성기를 잡음 제거 자동인코더로 해석함으로써 추론 시점에 외부 검증기나 추가 학습 없이 반복적인 내부 순환 정제가 가능합니다. 또한 자기 일관성을 기반으로 영역을 선택적으로 정제하는 불확실성 인식 정제 전략을 도입하여 과도한 정제로 인한 아티팩트를 방지합니다. 최첨단 비디오 생성기에 대한 실험 결과, 운동 일관성과 물리 법칙 부합도에서 현저한 향상을 보였으며, 기본 샘플러 및 지도 기반 샘플러 대비 70% 이상의 인간 선호도를 달성했습니다.
English
Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.