SwiftI2V: Efficiënte hoogwaardige beeld-naar-video-generatie via conditionele segmentgewijze generatie

Samenvatting

Hoogresolutie beeld-naar-video (I2V) generatie heeft als doel realistische temporele dynamiek te synthetiseren, waarbij fijne uiterlijke details van de invoerafbeelding behouden blijven. Op 2K-resolutie wordt dit extreem uitdagend, en bestaande oplossingen kampen met diverse zwaktes: 1) end-to-end modellen zijn vaak onhaalbaar duur qua geheugen en latentie; 2) het cascaderen van laagresolutiegeneratie met een generieke video-superresolutie heeft de neiging details te hallucineren en af te drijven van invoerspecifieke lokale structuren, omdat de superresolutiefase niet expliciet geconditioneerd is op de invoerafbeelding. Daartoe stellen wij SwiftI2V voor, een efficiënt raamwerk toegesneden op hoogresolutie I2V. Volgend op het veelgebruikte tweefasendesign, lost het het efficiëntie–nauwkeurigheid-dilemma op door eerst een laagresolutie bewegingreferentie te genereren om tokentellingen te verlagen en de modelleerlast te verlichten, waarna een sterk beeld-geconditioneerde 2K-synthese wordt uitgevoerd, geleid door de beweging, om invoergetrouwe details te herstellen met gecontroleerde overhead. Specifiek, om de generatie schaalbaarder te maken, introduceert SwiftI2V Conditionele Segmentgewijze Generatie (CSG) om video's segment voor segment te synthetiseren met een begroot tokentelling per stap, en neemt het bidirectionele contextuele interactie binnen elk segment over om de coherentie tussen segmenten en de invoernauwkeurigheid te verbeteren. Op VBench-I2V bij 2K-resolutie bereikt SwiftI2V prestaties vergelijkbaar met end-to-end baseline-modellen, terwijl de totale GPU-tijd met 202x wordt verminderd. In het bijzonder maakt het praktische 2K I2V-generatie mogelijk op een enkele datacenter-GPU (bijv. H800) of consumenten-GPU (bijv. RTX 4090).

English

High-resolution image-to-video (I2V) generation aims to synthesize realistic temporal dynamics while preserving fine-grained appearance details of the input image. At 2K resolution, it becomes extremely challenging, and existing solutions suffer from various weaknesses: 1) end-to-end models are often prohibitively expensive in memory and latency; 2) cascading low-resolution generation with a generic video super-resolution tends to hallucinate details and drift from input-specific local structures, since the super-resolution stage is not explicitly conditioned on the input image. To this end, we propose SwiftI2V, an efficient framework tailored for high-resolution I2V. Following the widely used two-stage design, it addresses the efficiency--fidelity dilemma by first generating a low-resolution motion reference to reduce token costs and ease the modeling burden, then performing a strongly image-conditioned 2K synthesis guided by the motion to recover input-faithful details with controlled overhead. Specifically, to make generation more scalable, SwiftI2V introduces Conditional Segment-wise Generation (CSG) to synthesize videos segment-by-segment with a bounded per-step token budget, and adopts bidirectional contextual interaction within each segment to improve cross-segment coherence and input fidelity. On VBench-I2V at 2K resolution, SwiftI2V achieves performance comparable to end-to-end baselines while reducing total GPU-time by 202x. Particularly, it enables practical 2K I2V generation on a single datacenter GPU (e.g., H800) or consumer GPU (e.g., RTX 4090).

SwiftI2V: Efficiënte hoogwaardige beeld-naar-video-generatie via conditionele segmentgewijze generatie

SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

Samenvatting

Support