ChatPaper.aiChatPaper

DreamStyle : Un cadre unifié pour la stylisation vidéo

DreamStyle: A Unified Framework for Video Stylization

January 6, 2026
papers.authors: Mengtian Li, Jinshu Chen, Songtao Zhao, Wanquan Feng, Pengqi Tu, Qian He
cs.AI

papers.abstract

La stylisation vidéo, une tâche en aval importante des modèles de génération vidéo, n'a pas encore été explorée de manière approfondie. Ses conditions de style en entrée incluent généralement du texte, une image de référence stylistique et une première image stylisée. Chaque condition présente un avantage caractéristique : le texte offre plus de flexibilité, l'image de référence fournit un ancrage visuel plus précis, et la première image stylisée rend réalisable la stylisation de vidéos longues. Cependant, les méthodes existantes se limitent largement à un seul type de condition de style, ce qui restreint leur champ d'application. De plus, l'absence de jeux de données de haute qualité entraîne des incohérences stylistiques et un scintillement temporel. Pour résoudre ces limitations, nous présentons DreamStyle, un framework unifié pour la stylisation vidéo, prenant en charge (1) la stylisation guidée par texte, (2) guidée par image de référence, et (3) guidée par première image, accompagné d'un pipeline de curation de données bien conçu pour acquérir des données vidéo appariées de haute qualité. DreamStyle est construit sur un modèle Image-to-Vidéo (I2V) standard et entraîné en utilisant une Adaptation de Bas Rang (LoRA) avec des matrices ascendantes spécifiques aux tokens, réduisant la confusion entre les différents tokens de condition. Les évaluations qualitatives et quantitatives démontrent que DreamStyle est compétent dans les trois tâches de stylisation vidéo et surpasse les méthodes concurrentes en termes de cohérence stylistique et de qualité vidéo.
English
Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.
PDF171January 8, 2026