Conectando Geração de Texto e Vídeo: Uma Revisão
Bridging Text and Video Generation: A Survey
October 6, 2025
Autores: Nilay Kumar, Priyansh Bhandari, G. Maragatham
cs.AI
Resumo
A tecnologia de geração de texto para vídeo (T2V) tem o potencial de transformar múltiplos domínios, como educação, marketing, entretenimento e tecnologias assistivas para indivíduos com desafios visuais ou de compreensão de leitura, ao criar conteúdo visual coerente a partir de prompts de linguagem natural. Desde sua concepção, o campo evoluiu de modelos adversariais para modelos baseados em difusão, resultando em saídas de maior fidelidade e consistência temporal. No entanto, desafios persistem, como alinhamento, coerência de longo alcance e eficiência computacional. Diante desse cenário em evolução, apresentamos uma pesquisa abrangente sobre modelos generativos de texto para vídeo, traçando seu desenvolvimento desde os primeiros GANs e VAEs até arquiteturas híbridas de Difusão-Transformer (DiT), detalhando como esses modelos funcionam, quais limitações eles abordaram em seus predecessores e por que mudanças em direção a novos paradigmas arquitetônicos foram necessárias para superar desafios em qualidade, coerência e controle. Fornecemos um relato sistemático dos conjuntos de dados nos quais os modelos de texto para vídeo pesquisados foram treinados e avaliados e, para apoiar a reprodutibilidade e avaliar a acessibilidade do treinamento desses modelos, detalhamos suas configurações de treinamento, incluindo especificações de hardware, número de GPUs, tamanhos de lote, taxas de aprendizado, otimizadores, épocas e outros hiperparâmetros-chave. Além disso, delineamos as métricas de avaliação comumente usadas para avaliar esses modelos e apresentamos seu desempenho em benchmarks padrão, enquanto discutimos as limitações dessas métricas e a mudança emergente em direção a estratégias de avaliação mais holísticas e alinhadas à percepção. Por fim, com base em nossa análise, delineamos os desafios atuais em aberto e propomos algumas direções futuras promissoras, estabelecendo uma perspectiva para futuros pesquisadores explorarem e construírem avanços na pesquisa e aplicações de T2V.
English
Text-to-video (T2V) generation technology holds potential to transform
multiple domains such as education, marketing, entertainment, and assistive
technologies for individuals with visual or reading comprehension challenges,
by creating coherent visual content from natural language prompts. From its
inception, the field has advanced from adversarial models to diffusion-based
models, yielding higher-fidelity, temporally consistent outputs. Yet challenges
persist, such as alignment, long-range coherence, and computational efficiency.
Addressing this evolving landscape, we present a comprehensive survey of
text-to-video generative models, tracing their development from early GANs and
VAEs to hybrid Diffusion-Transformer (DiT) architectures, detailing how these
models work, what limitations they addressed in their predecessors, and why
shifts toward new architectural paradigms were necessary to overcome challenges
in quality, coherence, and control. We provide a systematic account of the
datasets, which the surveyed text-to-video models were trained and evaluated
on, and, to support reproducibility and assess the accessibility of training
such models, we detail their training configurations, including their hardware
specifications, GPU counts, batch sizes, learning rates, optimizers, epochs,
and other key hyperparameters. Further, we outline the evaluation metrics
commonly used for evaluating such models and present their performance across
standard benchmarks, while also discussing the limitations of these metrics and
the emerging shift toward more holistic, perception-aligned evaluation
strategies. Finally, drawing from our analysis, we outline the current open
challenges and propose a few promising future directions, laying out a
perspective for future researchers to explore and build upon in advancing T2V
research and applications.