Paper2Video: Automatische Videogeneratie uit Wetenschappelijke Artikelen
Paper2Video: Automatic Video Generation from Scientific Papers
October 6, 2025
Auteurs: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Samenvatting
Academische presentatievideo's zijn een essentieel medium geworden voor onderzoekcommunicatie, maar het produceren ervan blijft zeer arbeidsintensief, waarbij vaak uren worden besteed aan het ontwerpen van dia's, opnemen en bewerken voor een korte video van 2 tot 10 minuten. In tegenstelling tot natuurlijke video's brengt het genereren van presentatievideo's specifieke uitdagingen met zich mee: input van onderzoeksartikelen, dichte multimodale informatie (tekst, figuren, tabellen), en de noodzaak om meerdere afgestemde kanalen te coördineren, zoals dia's, ondertiteling, spraak en een menselijke spreker. Om deze uitdagingen aan te pakken, introduceren we PaperTalker, de eerste benchmark van 101 onderzoeksartikelen gekoppeld aan door auteurs gemaakte presentatievideo's, dia's en sprekersmetadata. We ontwerpen verder vier op maat gemaakte evaluatiemetrics—Meta Similarity, PresentArena, PresentQuiz en IP Memory—om te meten hoe video's de informatie van het artikel overbrengen naar het publiek. Op basis van deze fundering stellen we PaperTalker voor, het eerste multi-agent framework voor het genereren van academische presentatievideo's. Het integreert dia-generatie met effectieve lay-outverfijning door een nieuwe effectieve boomzoekvisuele keuze, cursorverankering, ondertiteling, spraaksynthese en talking-head rendering, terwijl het dia-voor-dia generatie paralleliseert voor efficiëntie. Experimenten op Paper2Video tonen aan dat de presentatievideo's die door onze aanpak worden geproduceerd, trouwer en informatiever zijn dan bestaande baselines, wat een praktische stap vormt naar geautomatiseerde en gebruiksklare academische videogeneratie. Onze dataset, agent en code zijn beschikbaar op https://github.com/showlab/Paper2Video.
English
Academic presentation videos have become an essential medium for research
communication, yet producing them remains highly labor-intensive, often
requiring hours of slide design, recording, and editing for a short 2 to 10
minutes video. Unlike natural video, presentation video generation involves
distinctive challenges: inputs from research papers, dense multi-modal
information (text, figures, tables), and the need to coordinate multiple
aligned channels such as slides, subtitles, speech, and human talker. To
address these challenges, we introduce PaperTalker, the first benchmark of 101
research papers paired with author-created presentation videos, slides, and
speaker metadata. We further design four tailored evaluation metrics--Meta
Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos
convey the paper's information to the audience. Building on this foundation, we
propose PaperTalker, the first multi-agent framework for academic presentation
video generation. It integrates slide generation with effective layout
refinement by a novel effective tree search visual choice, cursor grounding,
subtitling, speech synthesis, and talking-head rendering, while parallelizing
slide-wise generation for efficiency. Experiments on Paper2Video demonstrate
that the presentation videos produced by our approach are more faithful and
informative than existing baselines, establishing a practical step toward
automated and ready-to-use academic video generation. Our dataset, agent, and
code are available at https://github.com/showlab/Paper2Video.