SwiftI2V: Effiziente hochauflösende Bild-zu-Video-Erzeugung durch bedingte segmentweise Generierung

Zusammenfassung

Die hochauflösende Bild-zu-Video-Generierung (I2V) zielt darauf ab, realistische zeitliche Dynamiken zu synthetisieren und gleichzeitig feinste Erscheinungsdetails des Eingabebildes zu bewahren. Bei 2K-Auflösung wird dies äußerst anspruchsvoll, und bestehende Lösungen weisen verschiedene Schwächen auf: 1) End-to-End-Modelle sind oft unverhältnismäßig speicherintensiv und langsam; 2) Die Kaskadierung einer niedrigauflösenden Generierung mit einer generischen Video-Super-Resolution neigt dazu, Details zu halluzinieren und von eingabespezifischen lokalen Strukturen abzudriften, da die Super-Resolution-Stufe nicht explizit auf das Eingabebild konditioniert ist. Daher schlagen wir SwiftI2V vor, ein effizientes Framework für hochauflösende I2V. Basierend auf dem weit verbreiteten Zwei-Stufen-Design löst es das Effizienz-Treue-Dilemma, indem zunächst eine niedrigaufgelöste Bewegungsreferenz erzeugt wird, um Token-Kosten zu reduzieren und die Modellierung zu erleichtern, gefolgt von einer stark bildkonditionierten 2K-Synthese, die durch die Bewegung geführt wird, um eingabetreue Details mit kontrolliertem Aufwand wiederherzustellen. Konkret führt SwiftI2V Conditional Segment-wise Generation (CSG) ein, um Videos segmentweise mit einem begrenzten Token-Budget pro Schritt zu synthetisieren, und nutzt bidirektionale kontextuelle Interaktion innerhalb jedes Segments, um segmentsübergreifende Kohärenz und Eingabetreue zu verbessern. Auf VBench-I2V bei 2K-Auflösung erreicht SwiftI2V eine mit End-to-End-Baselines vergleichbare Leistung, reduziert jedoch die Gesamt-GPU-Zeit um das 202-fache. Insbesondere ermöglicht es eine praktische 2K-I2V-Generierung auf einer einzelnen Data-Center-GPU (z.B. H800) oder Consumer-GPU (z.B. RTX 4090).

English

High-resolution image-to-video (I2V) generation aims to synthesize realistic temporal dynamics while preserving fine-grained appearance details of the input image. At 2K resolution, it becomes extremely challenging, and existing solutions suffer from various weaknesses: 1) end-to-end models are often prohibitively expensive in memory and latency; 2) cascading low-resolution generation with a generic video super-resolution tends to hallucinate details and drift from input-specific local structures, since the super-resolution stage is not explicitly conditioned on the input image. To this end, we propose SwiftI2V, an efficient framework tailored for high-resolution I2V. Following the widely used two-stage design, it addresses the efficiency--fidelity dilemma by first generating a low-resolution motion reference to reduce token costs and ease the modeling burden, then performing a strongly image-conditioned 2K synthesis guided by the motion to recover input-faithful details with controlled overhead. Specifically, to make generation more scalable, SwiftI2V introduces Conditional Segment-wise Generation (CSG) to synthesize videos segment-by-segment with a bounded per-step token budget, and adopts bidirectional contextual interaction within each segment to improve cross-segment coherence and input fidelity. On VBench-I2V at 2K resolution, SwiftI2V achieves performance comparable to end-to-end baselines while reducing total GPU-time by 202x. Particularly, it enables practical 2K I2V generation on a single datacenter GPU (e.g., H800) or consumer GPU (e.g., RTX 4090).

SwiftI2V: Effiziente hochauflösende Bild-zu-Video-Erzeugung durch bedingte segmentweise Generierung

SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

Zusammenfassung

Support