텍스트와 비디오 생성 간의 간극을 메우기: 연구 동향 분석
Bridging Text and Video Generation: A Survey
October 6, 2025
저자: Nilay Kumar, Priyansh Bhandari, G. Maragatham
cs.AI
초록
텍스트-투-비디오(T2V) 생성 기술은 자연어 프롬프트로부터 일관된 시각적 콘텐츠를 생성함으로써 교육, 마케팅, 엔터테인먼트, 시각적 또는 독해력에 어려움을 겪는 개인들을 위한 보조 기술 등 다양한 분야를 혁신할 잠재력을 지니고 있다. 이 분야는 초기의 적대적 생성 모델(GAN)에서 확산 기반 모델로 발전하며, 더 높은 충실도와 시간적 일관성을 갖춘 출력물을 제공해 왔다. 그러나 여전히 정렬, 장거리 일관성, 계산 효율성과 같은 과제가 남아 있다. 이러한 진화하는 환경을 고려하여, 본 논문은 텍스트-투-비디오 생성 모델에 대한 포괄적인 조사를 제공하며, 초기 GAN과 변분 오토인코더(VAE)에서 하이브리드 확산-트랜스포머(DiT) 아키텍처로의 발전 과정을 추적한다. 또한 이러한 모델들이 어떻게 작동하는지, 이전 모델들의 한계를 어떻게 해결했는지, 그리고 품질, 일관성, 제어와 관련된 과제를 극복하기 위해 새로운 아키텍처 패러다임으로의 전환이 왜 필요한지 상세히 설명한다. 본 논문은 조사된 텍스트-투-비디오 모델들이 훈련 및 평가된 데이터셋에 대한 체계적인 설명을 제공하며, 재현성을 지원하고 이러한 모델 훈련의 접근성을 평가하기 위해 하드웨어 사양, GPU 수, 배치 크기, 학습률, 최적화 알고리즘, 에포크 및 기타 주요 하이퍼파라미터를 포함한 훈련 구성을 상세히 기술한다. 더 나아가, 이러한 모델을 평가하는 데 일반적으로 사용되는 평가 지표를 개괄하고 표준 벤치마크에서의 성능을 제시하며, 이러한 지표의 한계와 더 포괄적이고 지각에 부합하는 평가 전략으로의 전환에 대해 논의한다. 마지막으로, 분석을 바탕으로 현재의 개방형 과제를 요약하고 몇 가지 유망한 미래 방향을 제안함으로써, T2V 연구와 응용을 발전시키기 위해 미래 연구자들이 탐구하고 구축할 수 있는 전망을 제시한다.
English
Text-to-video (T2V) generation technology holds potential to transform
multiple domains such as education, marketing, entertainment, and assistive
technologies for individuals with visual or reading comprehension challenges,
by creating coherent visual content from natural language prompts. From its
inception, the field has advanced from adversarial models to diffusion-based
models, yielding higher-fidelity, temporally consistent outputs. Yet challenges
persist, such as alignment, long-range coherence, and computational efficiency.
Addressing this evolving landscape, we present a comprehensive survey of
text-to-video generative models, tracing their development from early GANs and
VAEs to hybrid Diffusion-Transformer (DiT) architectures, detailing how these
models work, what limitations they addressed in their predecessors, and why
shifts toward new architectural paradigms were necessary to overcome challenges
in quality, coherence, and control. We provide a systematic account of the
datasets, which the surveyed text-to-video models were trained and evaluated
on, and, to support reproducibility and assess the accessibility of training
such models, we detail their training configurations, including their hardware
specifications, GPU counts, batch sizes, learning rates, optimizers, epochs,
and other key hyperparameters. Further, we outline the evaluation metrics
commonly used for evaluating such models and present their performance across
standard benchmarks, while also discussing the limitations of these metrics and
the emerging shift toward more holistic, perception-aligned evaluation
strategies. Finally, drawing from our analysis, we outline the current open
challenges and propose a few promising future directions, laying out a
perspective for future researchers to explore and build upon in advancing T2V
research and applications.