SwiftI2V: Generación Eficiente de Vídeo a partir de Imágenes de Alta Resolución mediante Generación Condicional Segmentada

Resumen

La generación de imágenes a video (I2V) de alta resolución tiene como objetivo sintetizar dinámicas temporales realistas preservando los detalles de apariencia a nivel granular de la imagen de entrada. A una resolución 2K, esto se vuelve extremadamente complejo, y las soluciones existentes presentan diversas debilidades: 1) los modelos end-to-end suelen ser prohibitivamente costosos en memoria y latencia; 2) el enfoque en cascada que genera un video de baja resolución y aplica después un super-resolución genérico tiende a alucinar detalles y a desviarse de las estructuras locales específicas de la entrada, ya que la etapa de super-resolución no está explícitamente condicionada por la imagen de entrada. Para abordar esto, proponemos SwiftI2V, un marco eficiente especializado para I2V de alta resolución. Siguiendo el diseño ampliamente utilizado en dos etapas, resuelve el dilema eficiencia-fidelidad generando primero una referencia de movimiento en baja resolución para reducir el coste de *tokens* y facilitar el modelado, y luego realizando una síntesis 2K fuertemente condicionada por la imagen, guiada por el movimiento, para recuperar detalles fieles a la entrada con una sobrecarga controlada. Específicamente, para hacer la generación más escalable, SwiftI2V introduce la Generación Condicional por Segmentos (CSG) para sintetizar videos segmento a segmento con un presupuesto de *tokens* limitado por paso, y adopta una interacción contextual bidireccional dentro de cada segmento para mejorar la coherencia entre segmentos y la fidelidad a la entrada. En VBench-I2V a resolución 2K, SwiftI2V logra un rendimiento comparable al de los modelos baseline end-to-end mientras reduce el tiempo total de GPU en 202x. En particular, permite la generación práctica de I2V en 2K en una única GPU de centro de datos (por ejemplo, H800) o en una GPU de consumo (por ejemplo, RTX 4090).

English

High-resolution image-to-video (I2V) generation aims to synthesize realistic temporal dynamics while preserving fine-grained appearance details of the input image. At 2K resolution, it becomes extremely challenging, and existing solutions suffer from various weaknesses: 1) end-to-end models are often prohibitively expensive in memory and latency; 2) cascading low-resolution generation with a generic video super-resolution tends to hallucinate details and drift from input-specific local structures, since the super-resolution stage is not explicitly conditioned on the input image. To this end, we propose SwiftI2V, an efficient framework tailored for high-resolution I2V. Following the widely used two-stage design, it addresses the efficiency--fidelity dilemma by first generating a low-resolution motion reference to reduce token costs and ease the modeling burden, then performing a strongly image-conditioned 2K synthesis guided by the motion to recover input-faithful details with controlled overhead. Specifically, to make generation more scalable, SwiftI2V introduces Conditional Segment-wise Generation (CSG) to synthesize videos segment-by-segment with a bounded per-step token budget, and adopts bidirectional contextual interaction within each segment to improve cross-segment coherence and input fidelity. On VBench-I2V at 2K resolution, SwiftI2V achieves performance comparable to end-to-end baselines while reducing total GPU-time by 202x. Particularly, it enables practical 2K I2V generation on a single datacenter GPU (e.g., H800) or consumer GPU (e.g., RTX 4090).

SwiftI2V: Generación Eficiente de Vídeo a partir de Imágenes de Alta Resolución mediante Generación Condicional Segmentada

SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

Resumen

Support