Paper2Video: Generación Automática de Videos a partir de Artículos Científicos
Paper2Video: Automatic Video Generation from Scientific Papers
October 6, 2025
Autores: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Resumen
Los videos de presentaciones académicas se han convertido en un medio esencial para la comunicación de investigaciones, aunque su producción sigue siendo altamente laboriosa, requiriendo a menudo horas de diseño de diapositivas, grabación y edición para un video corto de 2 a 10 minutos. A diferencia del video natural, la generación de videos de presentaciones implica desafíos distintivos: entradas de artículos de investigación, información multimodal densa (texto, figuras, tablas) y la necesidad de coordinar múltiples canales alineados, como diapositivas, subtítulos, voz y el hablante humano. Para abordar estos desafíos, presentamos PaperTalker, el primer conjunto de referencia de 101 artículos de investigación emparejados con videos de presentaciones creados por los autores, diapositivas y metadatos del hablante. Además, diseñamos cuatro métricas de evaluación personalizadas—Similitud Meta, PresentArena, PresentQuiz y Memoria IP—para medir cómo los videos transmiten la información del artículo a la audiencia. Sobre esta base, proponemos PaperTalker, el primer marco de trabajo multiagente para la generación de videos de presentaciones académicas. Este integra la generación de diapositivas con un refinamiento efectivo del diseño mediante una novedosa elección visual basada en búsqueda en árbol, anclaje del cursor, subtitulación, síntesis de voz y renderizado de cabezas parlantes, mientras paraleliza la generación por diapositivas para mayor eficiencia. Los experimentos en Paper2Video demuestran que los videos de presentaciones producidos por nuestro enfoque son más fieles e informativos que los métodos existentes, estableciendo un paso práctico hacia la generación automatizada y lista para usar de videos académicos. Nuestro conjunto de datos, agente y código están disponibles en https://github.com/showlab/Paper2Video.
English
Academic presentation videos have become an essential medium for research
communication, yet producing them remains highly labor-intensive, often
requiring hours of slide design, recording, and editing for a short 2 to 10
minutes video. Unlike natural video, presentation video generation involves
distinctive challenges: inputs from research papers, dense multi-modal
information (text, figures, tables), and the need to coordinate multiple
aligned channels such as slides, subtitles, speech, and human talker. To
address these challenges, we introduce PaperTalker, the first benchmark of 101
research papers paired with author-created presentation videos, slides, and
speaker metadata. We further design four tailored evaluation metrics--Meta
Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos
convey the paper's information to the audience. Building on this foundation, we
propose PaperTalker, the first multi-agent framework for academic presentation
video generation. It integrates slide generation with effective layout
refinement by a novel effective tree search visual choice, cursor grounding,
subtitling, speech synthesis, and talking-head rendering, while parallelizing
slide-wise generation for efficiency. Experiments on Paper2Video demonstrate
that the presentation videos produced by our approach are more faithful and
informative than existing baselines, establishing a practical step toward
automated and ready-to-use academic video generation. Our dataset, agent, and
code are available at https://github.com/showlab/Paper2Video.