SwiftI2V: Эффективное создание видео из изображений высокого разрешения с помощью условного поэтапного генеративного подхода

Аннотация

Генерация видео из изображений высокого разрешения (I2V) ставит целью синтез реалистичной временной динамики при сохранении тонких деталей внешнего вида исходного изображения. При разрешении 2K эта задача становится чрезвычайно сложной, и существующие решения страдают от ряда недостатков: 1) сквозные модели часто оказываются непомерно дорогими с точки зрения памяти и задержек; 2) каскадная генерация низкого разрешения с последующим универсальным увеличением разрешения видео склонна к галлюцинациям деталей и отклонению от локальных структур, специфичных для входного изображения, поскольку этап увеличения разрешения явно не обусловлен входным изображением. Для решения этой проблемы мы предлагаем SwiftI2V — эффективную платформу, разработанную специально для высококачественного I2V. Следуя популярной двухэтапной схеме, она решает дилемму «эффективность–точность» за счёт первоначального генерации низкоразрешенного референса движения для снижения вычислительных затрат и упрощения моделирования, а затем выполнения строго обусловленного изображением синтеза в 2K, управляемого движением, для восстановления деталей, соответствующих входным данным, при контролируемых издержках. В частности, для повышения масштабируемости генерации SwiftI2V вводит условное посементное генерирование (CSG), которое синтезирует видео по сегментам с ограниченным бюджетом вычислений на шаг, и использует двунаправленное контекстное взаимодействие внутри каждого сегмента для улучшения межсегментной согласованности и соответствия входным данным. На тестовом наборе VBench-I2V при разрешении 2K SwiftI2V демонстрирует результаты, сопоставимые со сквозными базовыми методами, при сокращении общего времени вычислений на GPU в 202 раза. Особенно важно, что он позволяет осуществлять практическую 2K I2V-генерацию на одном датацентровом GPU (например, H800) или потребительском GPU (например, RTX 4090).

English

High-resolution image-to-video (I2V) generation aims to synthesize realistic temporal dynamics while preserving fine-grained appearance details of the input image. At 2K resolution, it becomes extremely challenging, and existing solutions suffer from various weaknesses: 1) end-to-end models are often prohibitively expensive in memory and latency; 2) cascading low-resolution generation with a generic video super-resolution tends to hallucinate details and drift from input-specific local structures, since the super-resolution stage is not explicitly conditioned on the input image. To this end, we propose SwiftI2V, an efficient framework tailored for high-resolution I2V. Following the widely used two-stage design, it addresses the efficiency--fidelity dilemma by first generating a low-resolution motion reference to reduce token costs and ease the modeling burden, then performing a strongly image-conditioned 2K synthesis guided by the motion to recover input-faithful details with controlled overhead. Specifically, to make generation more scalable, SwiftI2V introduces Conditional Segment-wise Generation (CSG) to synthesize videos segment-by-segment with a bounded per-step token budget, and adopts bidirectional contextual interaction within each segment to improve cross-segment coherence and input fidelity. On VBench-I2V at 2K resolution, SwiftI2V achieves performance comparable to end-to-end baselines while reducing total GPU-time by 202x. Particularly, it enables practical 2K I2V generation on a single datacenter GPU (e.g., H800) or consumer GPU (e.g., RTX 4090).

SwiftI2V: Эффективное создание видео из изображений высокого разрешения с помощью условного поэтапного генеративного подхода

SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

Аннотация

Support