ChatPaper.aiChatPaper

自己改善型ビデオサンプリング

Self-Refining Video Sampling

January 26, 2026
著者: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang
cs.AI

要旨

現代のビデオ生成モデルは、複雑な物理ダイナミクスの再現において依然として課題を抱えており、物理的なリアリズムを十分に達成できていない。既存の手法では、外部検証器や拡張データを用いた追加学習によってこの問題に対処するが、計算コストが高く、微細な運動の捕捉には限界がある。本研究では、大規模データセットで学習済みのビデオ生成モデルを自己改良器として利用する簡潔な手法「自己改良型ビデオサンプリング」を提案する。生成モデルをデノイジングオートエンコーダとして解釈することで、推論時に外部検証器や追加学習を必要とせず、反復的な内部ループ改良を実現する。さらに、自己整合性に基づいて領域を選択的に改良する不確実性認識型改良戦略を導入し、過剰な改良によるアーティファクトの発生を防止する。最先端のビデオ生成モデルを用いた実験により、動きの一貫性と物理法則への適合性が大幅に向上し、デフォルトのサンプラーおよびガイダンスベースのサンプラーと比較して70%以上という人間の選好度を達成した。
English
Modern video generators still struggle with complex physical dynamics, often falling short of physical realism. Existing approaches address this using external verifiers or additional training on augmented data, which is computationally expensive and still limited in capturing fine-grained motion. In this work, we present self-refining video sampling, a simple method that uses a pre-trained video generator trained on large-scale datasets as its own self-refiner. By interpreting the generator as a denoising autoencoder, we enable iterative inner-loop refinement at inference time without any external verifier or additional training. We further introduce an uncertainty-aware refinement strategy that selectively refines regions based on self-consistency, which prevents artifacts caused by over-refinement. Experiments on state-of-the-art video generators demonstrate significant improvements in motion coherence and physics alignment, achieving over 70\% human preference compared to the default sampler and guidance-based sampler.
PDF152January 28, 2026