Paper2Video: Generazione Automatica di Video da Articoli Scientifici
Paper2Video: Automatic Video Generation from Scientific Papers
October 6, 2025
Autori: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Abstract
I video di presentazione accademici sono diventati un mezzo essenziale per la comunicazione della ricerca, ma la loro produzione rimane estremamente laboriosa, richiedendo spesso ore di progettazione di slide, registrazione e montaggio per un breve video di 2-10 minuti. A differenza dei video naturali, la generazione di video di presentazione comporta sfide distintive: input da articoli di ricerca, informazioni multimodali dense (testo, figure, tabelle) e la necessità di coordinare più canali allineati come slide, sottotitoli, discorso e relatore umano. Per affrontare queste sfide, introduciamo PaperTalker, il primo benchmark di 101 articoli di ricerca abbinati a video di presentazione creati dagli autori, slide e metadati del relatore. Abbiamo inoltre progettato quattro metriche di valutazione personalizzate—Meta Similarity, PresentArena, PresentQuiz e IP Memory—per misurare come i video trasmettono le informazioni dell'articolo al pubblico. Basandoci su queste fondamenta, proponiamo PaperTalker, il primo framework multi-agente per la generazione di video di presentazione accademici. Esso integra la generazione di slide con un efficace affinamento del layout attraverso una nuova scelta visiva basata su ricerca ad albero, ancoraggio del cursore, sottotitolazione, sintesi vocale e rendering del volto parlante, parallelizzando la generazione delle slide per efficienza. Gli esperimenti su Paper2Video dimostrano che i video di presentazione prodotti dal nostro approccio sono più fedeli e informativi rispetto alle baseline esistenti, rappresentando un passo pratico verso la generazione automatica e pronta all'uso di video accademici. Il nostro dataset, agente e codice sono disponibili su https://github.com/showlab/Paper2Video.
English
Academic presentation videos have become an essential medium for research
communication, yet producing them remains highly labor-intensive, often
requiring hours of slide design, recording, and editing for a short 2 to 10
minutes video. Unlike natural video, presentation video generation involves
distinctive challenges: inputs from research papers, dense multi-modal
information (text, figures, tables), and the need to coordinate multiple
aligned channels such as slides, subtitles, speech, and human talker. To
address these challenges, we introduce PaperTalker, the first benchmark of 101
research papers paired with author-created presentation videos, slides, and
speaker metadata. We further design four tailored evaluation metrics--Meta
Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos
convey the paper's information to the audience. Building on this foundation, we
propose PaperTalker, the first multi-agent framework for academic presentation
video generation. It integrates slide generation with effective layout
refinement by a novel effective tree search visual choice, cursor grounding,
subtitling, speech synthesis, and talking-head rendering, while parallelizing
slide-wise generation for efficiency. Experiments on Paper2Video demonstrate
that the presentation videos produced by our approach are more faithful and
informative than existing baselines, establishing a practical step toward
automated and ready-to-use academic video generation. Our dataset, agent, and
code are available at https://github.com/showlab/Paper2Video.