ChatPaper.aiChatPaper

DreamStyle: Ein einheitliches Framework für Video-Stilisierung

DreamStyle: A Unified Framework for Video Stylization

January 6, 2026
papers.authors: Mengtian Li, Jinshu Chen, Songtao Zhao, Wanquan Feng, Pengqi Tu, Qian He
cs.AI

papers.abstract

Video Stylization, eine wichtige Downstream-Aufgabe von Videogenerierungsmodellen, wurde bisher noch nicht umfassend erforscht. Ihre Eingabe-Stilbedingungen umfassen typischerweise Text, Stilbild und stylisiertes Erstframe. Jede Bedingung hat einen charakteristischen Vorteil: Text ist flexibler, Stilbilder bieten einen präziseren visuellen Anker und stylisierte Erstframes machen die Stilisierung langer Videos praktikabel. Bisherige Methoden sind jedoch weitgehend auf einen einzigen Stilbedingungstyp beschränkt, was ihren Anwendungsbereich einschränkt. Zudem führt ihr Mangel an hochwertigen Datensätzen zu Stilin konsistenzen und zeitlichem Flackern. Um diese Einschränkungen zu adressieren, stellen wir DreamStyle vor, einen einheitlichen Rahmen für Video Stylization, der (1) textgesteuerte, (2) stilbildgesteuerte und (3) erstframegesteuerte Video Stylization unterstützt, ergänzt durch eine gut durchdachte Datenkuratierungs-Pipeline zur Beschaffung hochwertiger gepaarter Videodaten. DreamStyle basiert auf einem standardmäßigen Image-to-Video (I2V)-Modell und wird mit einer Low-Rank Adaptation (LoRA) trainiert, die token-spezifische Up-Matrizen verwendet, um die Verwechslung zwischen verschiedenen Condition-Tokens zu reduzieren. Sowohl qualitative als auch quantitative Auswertungen zeigen, dass DreamStyle in allen drei Video Stylization-Aufgaben kompetent ist und die Konkurrenz in Bezug auf Stilkonsistenz und Videoqualität übertrifft.
English
Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.
PDF171January 8, 2026