Paper2Video: Automatische Videogenerierung aus wissenschaftlichen Artikeln

papers.abstract

Akademische Präsentationsvideos sind zu einem wesentlichen Medium für die Forschungsvermittlung geworden, doch ihre Produktion bleibt äußerst arbeitsintensiv und erfordert oft Stunden für die Gestaltung von Folien, Aufnahme und Bearbeitung für ein kurzes Video von 2 bis 10 Minuten. Im Gegensatz zu natürlichen Videos birgt die Generierung von Präsentationsvideos besondere Herausforderungen: Eingaben aus Forschungsarbeiten, dichte multimodale Informationen (Text, Abbildungen, Tabellen) sowie die Notwendigkeit, mehrere abgestimmte Kanäle wie Folien, Untertitel, Sprache und den sprechenden Menschen zu koordinieren. Um diese Herausforderungen zu bewältigen, stellen wir PaperTalker vor, den ersten Benchmark mit 101 Forschungsarbeiten, die mit vom Autor erstellten Präsentationsvideos, Folien und Sprechermetadaten gepaart sind. Darüber hinaus entwickeln wir vier maßgeschneiderte Bewertungsmetriken – Meta Similarity, PresentArena, PresentQuiz und IP Memory –, um zu messen, wie gut die Videos die Informationen der Arbeit an das Publikum vermitteln. Auf dieser Grundlage aufbauend, präsentieren wir PaperTalker, das erste Multi-Agenten-Framework zur Generierung akademischer Präsentationsvideos. Es integriert die Foliengenerierung mit effektiver Layoutverfeinerung durch eine neuartige effiziente Baum-Suche für visuelle Auswahl, Cursor-Verankerung, Untertitelung, Sprachsynthese und Talking-Head-Rendering, während es die folienweise Generierung zur Steigerung der Effizienz parallelisiert. Experimente mit Paper2Video zeigen, dass die von unserem Ansatz erzeugten Präsentationsvideos treuer und informativer sind als bestehende Baselines, was einen praktischen Schritt in Richtung automatisierter und sofort einsatzbereiter akademischer Videogenerierung darstellt. Unser Datensatz, Agent und Code sind unter https://github.com/showlab/Paper2Video verfügbar.

English

Academic presentation videos have become an essential medium for research communication, yet producing them remains highly labor-intensive, often requiring hours of slide design, recording, and editing for a short 2 to 10 minutes video. Unlike natural video, presentation video generation involves distinctive challenges: inputs from research papers, dense multi-modal information (text, figures, tables), and the need to coordinate multiple aligned channels such as slides, subtitles, speech, and human talker. To address these challenges, we introduce PaperTalker, the first benchmark of 101 research papers paired with author-created presentation videos, slides, and speaker metadata. We further design four tailored evaluation metrics--Meta Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos convey the paper's information to the audience. Building on this foundation, we propose PaperTalker, the first multi-agent framework for academic presentation video generation. It integrates slide generation with effective layout refinement by a novel effective tree search visual choice, cursor grounding, subtitling, speech synthesis, and talking-head rendering, while parallelizing slide-wise generation for efficiency. Experiments on Paper2Video demonstrate that the presentation videos produced by our approach are more faithful and informative than existing baselines, establishing a practical step toward automated and ready-to-use academic video generation. Our dataset, agent, and code are available at https://github.com/showlab/Paper2Video.

Paper2Video: Automatische Videogenerierung aus wissenschaftlichen Artikeln

Paper2Video: Automatic Video Generation from Scientific Papers

papers.abstract

Support