SwiftI2V : Génération efficace d'images en haute résolution vers vidéo via une génération conditionnelle segment par segment

Résumé

La génération d'images haute résolution vers vidéo (I2V) vise à synthétiser une dynamique temporelle réaliste tout en préservant les détails d'apparence fins de l'image d'entrée. À une résolution 2K, cela devient extrêmement difficile, et les solutions existantes présentent diverses faiblesses : 1) les modèles de bout en bout sont souvent prohibitifs en mémoire et en latence ; 2) l'approche en cascade, générant d'abord en basse résolution puis appliquant un suréchantillonnage vidéo générique, a tendance à halluciner des détails et à dévier des structures locales spécifiques à l'entrée, car l'étape de suréchantillonnage n'est pas explicitement conditionnée par l'image d'entrée. Pour pallier cela, nous proposons SwiftI2V, un cadre efficace spécialisé pour l'I2V haute résolution. Suivant l'architecture en deux étapes largement utilisée, il résout le dilemme efficacité-fidélité en générant d'abord une référence de mouvement en basse résolution pour réduire le coût en tokens et alléger la charge de modélisation, puis en effectuant une synthèse 2K fortement conditionnée par l'image, guidée par le mouvement, pour restaurer des détails fidèles à l'entrée avec une surcharge contrôlée. Plus précisément, pour une génération plus évolutive, SwiftI2V introduit la Génération Conditionnelle par Segments (CSG) pour synthétiser les vidéos segment par segment avec un budget de tokens par étape limité, et adopte une interaction contextuelle bidirectionnelle au sein de chaque segment pour améliorer la cohérence inter-segments et la fidélité à l'entrée. Sur VBench-I2V en résolution 2K, SwiftI2V atteint des performances comparables aux modèles de référence de bout en bout tout en réduisant le temps GPU total par un facteur de 202. En particulier, il permet une génération I2V 2K pratique sur un seul GPU de centre de données (par exemple, H800) ou un GPU grand public (par exemple, RTX 4090).

English

High-resolution image-to-video (I2V) generation aims to synthesize realistic temporal dynamics while preserving fine-grained appearance details of the input image. At 2K resolution, it becomes extremely challenging, and existing solutions suffer from various weaknesses: 1) end-to-end models are often prohibitively expensive in memory and latency; 2) cascading low-resolution generation with a generic video super-resolution tends to hallucinate details and drift from input-specific local structures, since the super-resolution stage is not explicitly conditioned on the input image. To this end, we propose SwiftI2V, an efficient framework tailored for high-resolution I2V. Following the widely used two-stage design, it addresses the efficiency--fidelity dilemma by first generating a low-resolution motion reference to reduce token costs and ease the modeling burden, then performing a strongly image-conditioned 2K synthesis guided by the motion to recover input-faithful details with controlled overhead. Specifically, to make generation more scalable, SwiftI2V introduces Conditional Segment-wise Generation (CSG) to synthesize videos segment-by-segment with a bounded per-step token budget, and adopts bidirectional contextual interaction within each segment to improve cross-segment coherence and input fidelity. On VBench-I2V at 2K resolution, SwiftI2V achieves performance comparable to end-to-end baselines while reducing total GPU-time by 202x. Particularly, it enables practical 2K I2V generation on a single datacenter GPU (e.g., H800) or consumer GPU (e.g., RTX 4090).

SwiftI2V : Génération efficace d'images en haute résolution vers vidéo via une génération conditionnelle segment par segment

SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

Résumé

Support