ChatPaper.aiChatPaper

DreamStyle: Een Verenigd Kader voor Videostilisering

DreamStyle: A Unified Framework for Video Stylization

January 6, 2026
Auteurs: Mengtian Li, Jinshu Chen, Songtao Zhao, Wanquan Feng, Pengqi Tu, Qian He
cs.AI

Samenvatting

Videostilisering, een belangrijke neventaak van videogeneratiemodellen, is nog niet grondig onderzocht. De invoer-stijlvoorwaarden omvatten doorgaans tekst, stijlafbeeldingen en een gestileerd eerste frame. Elke voorwaarde heeft een kenmerkend voordeel: tekst is flexibeler, stijlafbeeldingen bieden een nauwkeuriger visueel anker, en een gestileerd eerste frame maakt stilisering van lange video's haalbaar. Bestaande methoden zijn echter grotendeels beperkt tot één type stijlvoorwaarde, wat hun toepassingsbereik beperkt. Bovendien leidt het gebrek aan hoogwaardige datasets tot stijlinconsistentie en temporele flikkering. Om deze beperkingen aan te pakken, introduceren we DreamStyle, een uniform raamwerk voor videostilisering dat ondersteuning biedt voor (1) tekstgeleide, (2) stijlafbeeldingsgeleide en (3) eerste-frame-geleide videostilisering, vergezeld van een goed ontworpen datacuratiepijplijn om hoogwaardige gekoppelde videogegevens te verkrijgen. DreamStyle is gebouwd op een standaard Image-to-Video (I2V)-model en getraind met behulp van een Low-Rank Adaptation (LoRA) met token-specifieke up-matrices die de verwarring tussen verschillende voorwaardelijke tokens vermindert. Zowel kwalitatieve als kwantitatieve evaluaties tonen aan dat DreamStyle geschikt is voor alle drie de videostiliseringstaken en de concurrentie overtreft op het gebied van stijlconsistentie en videokwaliteit.
English
Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.
PDF171January 8, 2026