Paper2Video : Génération automatique de vidéos à partir d'articles scientifiques
Paper2Video: Automatic Video Generation from Scientific Papers
October 6, 2025
papers.authors: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
papers.abstract
Les vidéos de présentation académique sont devenues un média essentiel pour la communication de la recherche, mais leur production reste très laborieuse, nécessitant souvent des heures de conception de diapositives, d'enregistrement et de montage pour une vidéo courte de 2 à 10 minutes. Contrairement aux vidéos naturelles, la génération de vidéos de présentation implique des défis distincts : des entrées issues d'articles de recherche, des informations multimodales denses (texte, figures, tableaux), et la nécessité de coordonner plusieurs canaux alignés tels que les diapositives, les sous-titres, la parole et l'intervenant humain. Pour relever ces défis, nous introduisons PaperTalker, le premier benchmark de 101 articles de recherche associés à des vidéos de présentation créées par les auteurs, des diapositives et des métadonnées du présentateur. Nous concevons en outre quatre métriques d'évaluation adaptées—Meta Similarity, PresentArena, PresentQuiz et IP Memory—pour mesurer comment les vidéos transmettent l'information de l'article au public. Sur cette base, nous proposons PaperTalker, le premier cadre multi-agent pour la génération de vidéos de présentation académique. Il intègre la génération de diapositives avec un raffinement efficace de la mise en page par un choix visuel innovant de recherche arborescente, l'ancrage du curseur, le sous-titrage, la synthèse vocale et le rendu de tête parlante, tout en parallélisant la génération diapositive par diapositive pour plus d'efficacité. Les expériences sur Paper2Video démontrent que les vidéos de présentation produites par notre approche sont plus fidèles et informatives que les bases de référence existantes, établissant une étape pratique vers la génération automatisée et prête à l'emploi de vidéos académiques. Notre ensemble de données, agent et code sont disponibles à l'adresse https://github.com/showlab/Paper2Video.
English
Academic presentation videos have become an essential medium for research
communication, yet producing them remains highly labor-intensive, often
requiring hours of slide design, recording, and editing for a short 2 to 10
minutes video. Unlike natural video, presentation video generation involves
distinctive challenges: inputs from research papers, dense multi-modal
information (text, figures, tables), and the need to coordinate multiple
aligned channels such as slides, subtitles, speech, and human talker. To
address these challenges, we introduce PaperTalker, the first benchmark of 101
research papers paired with author-created presentation videos, slides, and
speaker metadata. We further design four tailored evaluation metrics--Meta
Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos
convey the paper's information to the audience. Building on this foundation, we
propose PaperTalker, the first multi-agent framework for academic presentation
video generation. It integrates slide generation with effective layout
refinement by a novel effective tree search visual choice, cursor grounding,
subtitling, speech synthesis, and talking-head rendering, while parallelizing
slide-wise generation for efficiency. Experiments on Paper2Video demonstrate
that the presentation videos produced by our approach are more faithful and
informative than existing baselines, establishing a practical step toward
automated and ready-to-use academic video generation. Our dataset, agent, and
code are available at https://github.com/showlab/Paper2Video.