Relier la génération de texte et de vidéo : une synthèse
Bridging Text and Video Generation: A Survey
October 6, 2025
papers.authors: Nilay Kumar, Priyansh Bhandari, G. Maragatham
cs.AI
papers.abstract
La technologie de génération de texte-à-vidéo (T2V) possède un potentiel transformateur dans de multiples domaines tels que l'éducation, le marketing, le divertissement et les technologies d'assistance pour les personnes confrontées à des défis visuels ou de compréhension de lecture, en créant un contenu visuel cohérent à partir de prompts en langage naturel. Depuis ses débuts, ce domaine a évolué des modèles adversariaux aux modèles basés sur la diffusion, produisant des résultats de plus haute fidélité et temporellement cohérents. Cependant, des défis persistent, tels que l'alignement, la cohérence à long terme et l'efficacité computationnelle. Face à ce paysage en évolution, nous présentons une étude approfondie des modèles génératifs texte-à-vidéo, retraçant leur développement depuis les premiers GANs et VAEs jusqu'aux architectures hybrides Diffusion-Transformer (DiT), en détaillant le fonctionnement de ces modèles, les limites qu'ils ont surmontées chez leurs prédécesseurs, et les raisons pour lesquelles les transitions vers de nouveaux paradigmes architecturaux étaient nécessaires pour relever les défis en matière de qualité, de cohérence et de contrôle. Nous fournissons un compte rendu systématique des ensembles de données sur lesquels les modèles texte-à-vidéo étudiés ont été entraînés et évalués, et, pour soutenir la reproductibilité et évaluer l'accessibilité de l'entraînement de tels modèles, nous détaillons leurs configurations d'entraînement, incluant leurs spécifications matérielles, le nombre de GPU, les tailles de lots, les taux d'apprentissage, les optimiseurs, les époques et d'autres hyperparamètres clés. En outre, nous décrivons les métriques d'évaluation couramment utilisées pour évaluer ces modèles et présentons leurs performances sur des benchmarks standard, tout en discutant des limites de ces métriques et de l'émergence de stratégies d'évaluation plus holistiques et alignées sur la perception. Enfin, en nous appuyant sur notre analyse, nous exposons les défis ouverts actuels et proposons quelques directions futures prometteuses, offrant une perspective pour que les futurs chercheurs explorent et s'appuient sur ces avancées pour faire progresser la recherche et les applications T2V.
English
Text-to-video (T2V) generation technology holds potential to transform
multiple domains such as education, marketing, entertainment, and assistive
technologies for individuals with visual or reading comprehension challenges,
by creating coherent visual content from natural language prompts. From its
inception, the field has advanced from adversarial models to diffusion-based
models, yielding higher-fidelity, temporally consistent outputs. Yet challenges
persist, such as alignment, long-range coherence, and computational efficiency.
Addressing this evolving landscape, we present a comprehensive survey of
text-to-video generative models, tracing their development from early GANs and
VAEs to hybrid Diffusion-Transformer (DiT) architectures, detailing how these
models work, what limitations they addressed in their predecessors, and why
shifts toward new architectural paradigms were necessary to overcome challenges
in quality, coherence, and control. We provide a systematic account of the
datasets, which the surveyed text-to-video models were trained and evaluated
on, and, to support reproducibility and assess the accessibility of training
such models, we detail their training configurations, including their hardware
specifications, GPU counts, batch sizes, learning rates, optimizers, epochs,
and other key hyperparameters. Further, we outline the evaluation metrics
commonly used for evaluating such models and present their performance across
standard benchmarks, while also discussing the limitations of these metrics and
the emerging shift toward more holistic, perception-aligned evaluation
strategies. Finally, drawing from our analysis, we outline the current open
challenges and propose a few promising future directions, laying out a
perspective for future researchers to explore and build upon in advancing T2V
research and applications.