Paper2Video: Automatische Videogenerierung aus wissenschaftlichen Artikeln
Paper2Video: Automatic Video Generation from Scientific Papers
October 6, 2025
papers.authors: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
papers.abstract
Akademische Präsentationsvideos sind zu einem wesentlichen Medium für die Forschungsvermittlung geworden, doch ihre Produktion bleibt äußerst arbeitsintensiv und erfordert oft Stunden für die Gestaltung von Folien, Aufnahme und Bearbeitung für ein kurzes Video von 2 bis 10 Minuten. Im Gegensatz zu natürlichen Videos birgt die Generierung von Präsentationsvideos besondere Herausforderungen: Eingaben aus Forschungsarbeiten, dichte multimodale Informationen (Text, Abbildungen, Tabellen) sowie die Notwendigkeit, mehrere abgestimmte Kanäle wie Folien, Untertitel, Sprache und den sprechenden Menschen zu koordinieren. Um diese Herausforderungen zu bewältigen, stellen wir PaperTalker vor, den ersten Benchmark mit 101 Forschungsarbeiten, die mit vom Autor erstellten Präsentationsvideos, Folien und Sprechermetadaten gepaart sind. Darüber hinaus entwickeln wir vier maßgeschneiderte Bewertungsmetriken – Meta Similarity, PresentArena, PresentQuiz und IP Memory –, um zu messen, wie gut die Videos die Informationen der Arbeit an das Publikum vermitteln. Auf dieser Grundlage aufbauend, präsentieren wir PaperTalker, das erste Multi-Agenten-Framework zur Generierung akademischer Präsentationsvideos. Es integriert die Foliengenerierung mit effektiver Layoutverfeinerung durch eine neuartige effiziente Baum-Suche für visuelle Auswahl, Cursor-Verankerung, Untertitelung, Sprachsynthese und Talking-Head-Rendering, während es die folienweise Generierung zur Steigerung der Effizienz parallelisiert. Experimente mit Paper2Video zeigen, dass die von unserem Ansatz erzeugten Präsentationsvideos treuer und informativer sind als bestehende Baselines, was einen praktischen Schritt in Richtung automatisierter und sofort einsatzbereiter akademischer Videogenerierung darstellt. Unser Datensatz, Agent und Code sind unter https://github.com/showlab/Paper2Video verfügbar.
English
Academic presentation videos have become an essential medium for research
communication, yet producing them remains highly labor-intensive, often
requiring hours of slide design, recording, and editing for a short 2 to 10
minutes video. Unlike natural video, presentation video generation involves
distinctive challenges: inputs from research papers, dense multi-modal
information (text, figures, tables), and the need to coordinate multiple
aligned channels such as slides, subtitles, speech, and human talker. To
address these challenges, we introduce PaperTalker, the first benchmark of 101
research papers paired with author-created presentation videos, slides, and
speaker metadata. We further design four tailored evaluation metrics--Meta
Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos
convey the paper's information to the audience. Building on this foundation, we
propose PaperTalker, the first multi-agent framework for academic presentation
video generation. It integrates slide generation with effective layout
refinement by a novel effective tree search visual choice, cursor grounding,
subtitling, speech synthesis, and talking-head rendering, while parallelizing
slide-wise generation for efficiency. Experiments on Paper2Video demonstrate
that the presentation videos produced by our approach are more faithful and
informative than existing baselines, establishing a practical step toward
automated and ready-to-use academic video generation. Our dataset, agent, and
code are available at https://github.com/showlab/Paper2Video.