DreamStyle: Uma Estrutura Unificada para Estilização de Vídeo

Resumo

A estilização de vídeo, uma importante tarefa subsequente dos modelos de geração de vídeo, ainda não foi explorada minuciosamente. As suas condições de estilo de entrada incluem tipicamente texto, imagem de estilo e primeiro quadro estilizado. Cada condição apresenta uma vantagem característica: o texto é mais flexível, a imagem de estilo fornece uma referência visual mais precisa e o primeiro quadro estilizado torna viável a estilização de vídeos longos. Contudo, os métodos existentes estão amplamente confinados a um único tipo de condição de estilo, o que limita o seu âmbito de aplicação. Adicionalmente, a falta de conjuntos de dados de alta qualidade resulta em inconsistência de estilo e cintilação temporal. Para superar estas limitações, introduzimos o DreamStyle, uma estrutura unificada para estilização de vídeo, suportando (1) estilização de vídeo guiada por texto, (2) guiada por imagem de estilo e (3) guiada pelo primeiro quadro, acompanhada por um pipeline de curadoria de dados bem concebido para obter dados de vídeo emparelhados de alta qualidade. O DreamStyle é construído sobre um modelo básico de Imagem-para-Vídeo (I2V) e treinado usando uma Adaptação de Baixa Classificação (LoRA) com matrizes de ascensão específicas por token que reduzem a confusão entre diferentes tokens de condição. Avaliações qualitativas e quantitativas demonstram que o DreamStyle é competente em todas as três tarefas de estilização de vídeo e supera os concorrentes em consistência de estilo e qualidade de vídeo.

English

Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.