ChatPaper.aiChatPaper

Overbrugging van Tekst- en Videogeneratie: Een Overzicht

Bridging Text and Video Generation: A Survey

October 6, 2025
Auteurs: Nilay Kumar, Priyansh Bhandari, G. Maragatham
cs.AI

Samenvatting

Text-to-video (T2V)-generatietechnologie heeft het potentieel om meerdere domeinen te transformeren, zoals onderwijs, marketing, entertainment en ondersteunende technologieën voor individuen met visuele of leesbegripsproblemen, door samenhangende visuele content te creëren op basis van natuurlijke taalprompts. Sinds haar ontstaan heeft het veld zich ontwikkeld van adversariële modellen naar diffusiegebaseerde modellen, wat resulteert in outputs van hogere kwaliteit en temporele consistentie. Toch blijven uitdagingen bestaan, zoals uitlijning, langeafstandscoherentie en computationele efficiëntie. In het licht van deze evoluerende landschap presenteren wij een uitgebreid overzicht van text-to-video generatieve modellen, waarbij we hun ontwikkeling traceren van vroege GAN's en VAE's naar hybride Diffusion-Transformer (DiT)-architecturen. We beschrijven hoe deze modellen werken, welke beperkingen van hun voorgangers ze aanpakken en waarom verschuivingen naar nieuwe architecturale paradigma's nodig waren om uitdagingen op het gebied van kwaliteit, coherentie en controle te overwinnen. We bieden een systematisch overzicht van de datasets waarop de besproken text-to-video modellen zijn getraind en geëvalueerd, en om reproduceerbaarheid te ondersteunen en de toegankelijkheid van het trainen van dergelijke modellen te beoordelen, specificeren we hun trainingsconfiguraties, inclusief hardware-specificaties, aantal GPU's, batchgroottes, leerpercentages, optimalisatoren, epochs en andere belangrijke hyperparameters. Verder schetsen we de evaluatiemetrics die vaak worden gebruikt om dergelijke modellen te beoordelen en presenteren we hun prestaties op standaard benchmarks, terwijl we ook de beperkingen van deze metrics bespreken en de opkomende verschuiving naar meer holistische, perceptie-afgestemde evaluatiestrategieën. Ten slotte, voortbouwend op onze analyse, schetsen we de huidige open uitdagingen en stellen we enkele veelbelovende toekomstige richtingen voor, waarbij we een perspectief bieden voor toekomstige onderzoekers om te verkennen en op voort te bouwen in het bevorderen van T2V-onderzoek en -toepassingen.
English
Text-to-video (T2V) generation technology holds potential to transform multiple domains such as education, marketing, entertainment, and assistive technologies for individuals with visual or reading comprehension challenges, by creating coherent visual content from natural language prompts. From its inception, the field has advanced from adversarial models to diffusion-based models, yielding higher-fidelity, temporally consistent outputs. Yet challenges persist, such as alignment, long-range coherence, and computational efficiency. Addressing this evolving landscape, we present a comprehensive survey of text-to-video generative models, tracing their development from early GANs and VAEs to hybrid Diffusion-Transformer (DiT) architectures, detailing how these models work, what limitations they addressed in their predecessors, and why shifts toward new architectural paradigms were necessary to overcome challenges in quality, coherence, and control. We provide a systematic account of the datasets, which the surveyed text-to-video models were trained and evaluated on, and, to support reproducibility and assess the accessibility of training such models, we detail their training configurations, including their hardware specifications, GPU counts, batch sizes, learning rates, optimizers, epochs, and other key hyperparameters. Further, we outline the evaluation metrics commonly used for evaluating such models and present their performance across standard benchmarks, while also discussing the limitations of these metrics and the emerging shift toward more holistic, perception-aligned evaluation strategies. Finally, drawing from our analysis, we outline the current open challenges and propose a few promising future directions, laying out a perspective for future researchers to explore and build upon in advancing T2V research and applications.
PDF32October 9, 2025