SwiftI2V: 조건부 세그먼트 단위 생성을 통한 효율적인 고해상도 이미지-비디오 생성
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation
May 7, 2026
저자: YaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen
cs.AI
초록
고해상도 이미지-비디오(I2V) 생성은 입력 이미지의 정밀한 외관 디테일을 보존하면서 사실적인 시간적 동역학을 합성하는 것을 목표로 합니다. 2K 해상도에서는 이 작업이 극히 어려워지며, 기존 솔루션들은 다양한 약점을 보입니다: 1) 종단간(end-to-end) 모델은 메모리와 지연 시간 측면에서 종종 감당하기 어려울 정도로 비용이 큽니다; 2) 저해상도 생성과 일반적인 비디오 초해상도 방식을 연쇄적으로 사용하는 방법은 초해상도 단계가 입력 이미지를 명시적으로 조건으로 삼지 않기 때문에 디테일을 허구적으로 생성하고 입력에 특화된 지역 구조에서 이탈하는 경향이 있습니다. 이를 위해 우리는 고해상도 I2V에 특화된 효율적인 프레임워크인 SwiftI2V를 제안합니다. 널리 사용되는 2단계 설계를 따라, 이 프레임워크는 먼저 토큰 비용을 줄이고 모델링 부담을 완화하기 위한 저해상도 모션 참조를 생성한 후, 모션의 guidance를 받아 입력에 충실한 디테일을 제어된 오버헤드로 복원하는 강력한 이미지 조건 기반의 2K 합성을 수행하여 효율성과 정확도 사이의 딜레마를 해결합니다. 구체적으로, 생성의 확장성을 높이기 위해 SwiftI2V는 조건부 세그먼트 단위 생성(CSG)을 도입하여 단계별 토큰 예산을 한정하면서 비디오를 세그먼트별로 합성하며, 각 세그먼트 내에서 양방향 문맥 상호작용을 채택하여 세그먼트 간 일관성과 입력 충실도를 향상시킵니다. 2K 해상도의 VBench-I2V에서 SwiftI2V는 종단간 기준 모델들과 비슷한 성능을 달성하면서 전체 GPU 시간을 202배 줄였습니다. 특히, 단일 데이터센터 GPU(예: H800) 또는 소비자용 GPU(예: RTX 4090)에서 실용적인 2K I2V 생성을 가능하게 합니다.
English
High-resolution image-to-video (I2V) generation aims to synthesize realistic temporal dynamics while preserving fine-grained appearance details of the input image. At 2K resolution, it becomes extremely challenging, and existing solutions suffer from various weaknesses: 1) end-to-end models are often prohibitively expensive in memory and latency; 2) cascading low-resolution generation with a generic video super-resolution tends to hallucinate details and drift from input-specific local structures, since the super-resolution stage is not explicitly conditioned on the input image. To this end, we propose SwiftI2V, an efficient framework tailored for high-resolution I2V. Following the widely used two-stage design, it addresses the efficiency--fidelity dilemma by first generating a low-resolution motion reference to reduce token costs and ease the modeling burden, then performing a strongly image-conditioned 2K synthesis guided by the motion to recover input-faithful details with controlled overhead. Specifically, to make generation more scalable, SwiftI2V introduces Conditional Segment-wise Generation (CSG) to synthesize videos segment-by-segment with a bounded per-step token budget, and adopts bidirectional contextual interaction within each segment to improve cross-segment coherence and input fidelity. On VBench-I2V at 2K resolution, SwiftI2V achieves performance comparable to end-to-end baselines while reducing total GPU-time by 202x. Particularly, it enables practical 2K I2V generation on a single datacenter GPU (e.g., H800) or consumer GPU (e.g., RTX 4090).