Overbrugging van Tekst- en Videogeneratie: Een Overzicht
Bridging Text and Video Generation: A Survey
October 6, 2025
Auteurs: Nilay Kumar, Priyansh Bhandari, G. Maragatham
cs.AI
Samenvatting
Text-to-video (T2V)-generatietechnologie heeft het potentieel om meerdere domeinen te transformeren, zoals onderwijs, marketing, entertainment en ondersteunende technologieën voor individuen met visuele of leesbegripsproblemen, door samenhangende visuele content te creëren op basis van natuurlijke taalprompts. Sinds haar ontstaan heeft het veld zich ontwikkeld van adversariële modellen naar diffusiegebaseerde modellen, wat resulteert in outputs van hogere kwaliteit en temporele consistentie. Toch blijven uitdagingen bestaan, zoals uitlijning, langeafstandscoherentie en computationele efficiëntie. In het licht van deze evoluerende landschap presenteren wij een uitgebreid overzicht van text-to-video generatieve modellen, waarbij we hun ontwikkeling traceren van vroege GAN's en VAE's naar hybride Diffusion-Transformer (DiT)-architecturen. We beschrijven hoe deze modellen werken, welke beperkingen van hun voorgangers ze aanpakken en waarom verschuivingen naar nieuwe architecturale paradigma's nodig waren om uitdagingen op het gebied van kwaliteit, coherentie en controle te overwinnen. We bieden een systematisch overzicht van de datasets waarop de besproken text-to-video modellen zijn getraind en geëvalueerd, en om reproduceerbaarheid te ondersteunen en de toegankelijkheid van het trainen van dergelijke modellen te beoordelen, specificeren we hun trainingsconfiguraties, inclusief hardware-specificaties, aantal GPU's, batchgroottes, leerpercentages, optimalisatoren, epochs en andere belangrijke hyperparameters. Verder schetsen we de evaluatiemetrics die vaak worden gebruikt om dergelijke modellen te beoordelen en presenteren we hun prestaties op standaard benchmarks, terwijl we ook de beperkingen van deze metrics bespreken en de opkomende verschuiving naar meer holistische, perceptie-afgestemde evaluatiestrategieën. Ten slotte, voortbouwend op onze analyse, schetsen we de huidige open uitdagingen en stellen we enkele veelbelovende toekomstige richtingen voor, waarbij we een perspectief bieden voor toekomstige onderzoekers om te verkennen en op voort te bouwen in het bevorderen van T2V-onderzoek en -toepassingen.
English
Text-to-video (T2V) generation technology holds potential to transform
multiple domains such as education, marketing, entertainment, and assistive
technologies for individuals with visual or reading comprehension challenges,
by creating coherent visual content from natural language prompts. From its
inception, the field has advanced from adversarial models to diffusion-based
models, yielding higher-fidelity, temporally consistent outputs. Yet challenges
persist, such as alignment, long-range coherence, and computational efficiency.
Addressing this evolving landscape, we present a comprehensive survey of
text-to-video generative models, tracing their development from early GANs and
VAEs to hybrid Diffusion-Transformer (DiT) architectures, detailing how these
models work, what limitations they addressed in their predecessors, and why
shifts toward new architectural paradigms were necessary to overcome challenges
in quality, coherence, and control. We provide a systematic account of the
datasets, which the surveyed text-to-video models were trained and evaluated
on, and, to support reproducibility and assess the accessibility of training
such models, we detail their training configurations, including their hardware
specifications, GPU counts, batch sizes, learning rates, optimizers, epochs,
and other key hyperparameters. Further, we outline the evaluation metrics
commonly used for evaluating such models and present their performance across
standard benchmarks, while also discussing the limitations of these metrics and
the emerging shift toward more holistic, perception-aligned evaluation
strategies. Finally, drawing from our analysis, we outline the current open
challenges and propose a few promising future directions, laying out a
perspective for future researchers to explore and build upon in advancing T2V
research and applications.