ChatPaper.aiChatPaper

DreamStyle:映像スタイライゼーションのための統一フレームワーク

DreamStyle: A Unified Framework for Video Stylization

January 6, 2026
著者: Mengtian Li, Jinshu Chen, Songtao Zhao, Wanquan Feng, Pengqi Tu, Qian He
cs.AI

要旨

ビデオスタイライゼーションは、ビデオ生成モデルの重要な下流タスクであるにもかかわらず、未だ十分に研究が進んでいない。その入力スタイル条件には通常、テキスト、スタイル画像、スタイル化された最初のフレームが含まれる。各条件には特徴的な利点がある:テキストは柔軟性が高く、スタイル画像はより正確な視覚的アンカーを提供し、スタイル化された最初のフレームは長尺ビデオのスタイライゼーションを実現可能にする。しかし、既存手法の多くは単一のスタイル条件に限定されており、応用範囲が制限されている。さらに、高品質なデータセットの不足から、スタイルの不一致や時間的なちらつきが生じている。これらの課題を解決するため、我々は統一ビデオスタイライゼーションフレームワーク「DreamStyle」を提案する。(1)テキスト誘導型、(2)スタイル画像誘導型、(3)最初のフレーム誘導型のビデオスタイライゼーションをサポートし、高品質なペアビデオデータを取得するために設計されたデータキュレーションパイプラインを備える。DreamStyleは標準的なImage-to-Video(I2V)モデルを基盤とし、異なる条件トークン間の混同を軽減するトークン特化のアップ行列を用いたLoRA(Low-Rank Adaptation)で学習される。定性的・定量的評価の両方において、DreamStyleは3つのビデオスタイライゼーションタスクすべてで有効であり、スタイル一貫性とビデオ品質において既存手法を上回ることを実証した。
English
Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.
PDF171January 8, 2026