DreamStyle: Унифицированная структура для стилизации видео
DreamStyle: A Unified Framework for Video Stylization
January 6, 2026
Авторы: Mengtian Li, Jinshu Chen, Songtao Zhao, Wanquan Feng, Pengqi Tu, Qian He
cs.AI
Аннотация
Видеостилизация, важная последующая задача моделей генерации видео, до сих пор не была всесторонне изучена. Ее входные стилевые условия обычно включают текст, изображение-образец стиля и стилизованный первый кадр. Каждое условие обладает характерным преимуществом: текст более гибкий, изображение-образец стиля обеспечивает более точную визуальную опору, а стилизованный первый кадр делает стилизацию длинных видео осуществимой. Однако существующие методы в значительной степени ограничены использованием единственного типа стилевого условия, что сужает сферу их применения. Кроме того, отсутствие у них высококачественных наборов данных приводит к стилевой несогласованности и временному мерцанию. Для решения этих проблем мы представляем DreamStyle — унифицированную структуру для видеостилизации, поддерживающую (1) управляемую текстом, (2) управляемую изображением-образцом стиля и (3) управляемую первым кадром видеостилизацию, сопровождаемую тщательно разработанным конвейером курации данных для получения высококачественных парных видеоданных. DreamStyle построена на базовой модели «изображение-в-видео» (Image-to-Video, I2V) и обучается с использованием низкоранговой адаптации (Low-Rank Adaptation, LoRA) с восходящими матрицами, специфичными для токенов, что снижает путаницу между различными токенами условий. Как качественные, так и количественные оценки демонстрируют, что DreamStyle эффективно справляется со всеми тремя задачами видеостилизации и превосходит конкурентов по стилевой согласованности и качеству видео.
English
Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.