DreamStyle: Un Framework Unificato per la Stilizzazione Video

Abstract

La stilizzazione video, un'importante attività derivata dei modelli di generazione video, non è stata ancora esplorata approfonditamente. Le sue condizioni di stile in input includono tipicamente testo, immagine di stile e primo fotogramma stilizzato. Ogni condizione presenta un vantaggio caratteristico: il testo è più flessibile, l'immagine di stile fornisce un ancoraggio visivo più preciso e il primo fotogramma stilizzato rende fattibile la stilizzazione di video lunghi. Tuttavia, i metodi esistenti sono largamente confinati a un singolo tipo di condizione di stile, il che ne limita l'ambito di applicazione. Inoltre, la mancanza di dataset di alta qualità porta a incoerenze stilistiche e sfarfallii temporali. Per affrontare queste limitazioni, introduciamo DreamStyle, un framework unificato per la stilizzazione video che supporta (1) la stilizzazione video guidata da testo, (2) guidata da immagine di stile e (3) guidata dal primo fotogramma, accompagnato da una pipeline ben progettata per la cura dei dati per acquisire dati video accoppiati di alta qualità. DreamStyle è costruito su un modello base da immagine a video (I2V) e addestrato utilizzando un adattamento a basso rango (LoRA) con matrici di up specifiche per token che riducono la confusione tra i diversi token di condizione. Valutazioni sia qualitative che quantitative dimostrano che DreamStyle è competente in tutte e tre le attività di stilizzazione video e supera i concorrenti in coerenza stilistica e qualità video.

English

Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.

DreamStyle: Un Framework Unificato per la Stilizzazione Video

DreamStyle: A Unified Framework for Video Stylization

Abstract

Support