Paper2Video: Geração Automática de Vídeos a partir de Artigos Científicos
Paper2Video: Automatic Video Generation from Scientific Papers
October 6, 2025
Autores: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Resumo
Os vídeos de apresentações acadêmicas tornaram-se um meio essencial para a comunicação de pesquisas, mas sua produção continua sendo altamente trabalhosa, muitas vezes exigindo horas de design de slides, gravação e edição para um vídeo curto de 2 a 10 minutos. Diferente de vídeos naturais, a geração de vídeos de apresentação envolve desafios distintos: entradas de artigos de pesquisa, informações multimodais densas (texto, figuras, tabelas) e a necessidade de coordenar múltiplos canais alinhados, como slides, legendas, fala e o apresentador humano. Para enfrentar esses desafios, apresentamos o PaperTalker, o primeiro benchmark de 101 artigos de pesquisa emparelhados com vídeos de apresentação criados pelos autores, slides e metadados do apresentador. Além disso, projetamos quatro métricas de avaliação personalizadas—Meta Similarity, PresentArena, PresentQuiz e IP Memory—para medir como os vídeos transmitem as informações do artigo ao público. Com base nessa fundação, propomos o PaperTalker, o primeiro framework multiagente para geração de vídeos de apresentação acadêmica. Ele integra a geração de slides com refinamento eficaz de layout por meio de uma nova escolha visual de busca em árvore, ancoragem de cursor, legendagem, síntese de fala e renderização de cabeça falante, enquanto paraleliza a geração de slides para eficiência. Experimentos no Paper2Video demonstram que os vídeos de apresentação produzidos por nossa abordagem são mais fiéis e informativos do que as linhas de base existentes, estabelecendo um passo prático em direção à geração automatizada e pronta para uso de vídeos acadêmicos. Nosso conjunto de dados, agente e código estão disponíveis em https://github.com/showlab/Paper2Video.
English
Academic presentation videos have become an essential medium for research
communication, yet producing them remains highly labor-intensive, often
requiring hours of slide design, recording, and editing for a short 2 to 10
minutes video. Unlike natural video, presentation video generation involves
distinctive challenges: inputs from research papers, dense multi-modal
information (text, figures, tables), and the need to coordinate multiple
aligned channels such as slides, subtitles, speech, and human talker. To
address these challenges, we introduce PaperTalker, the first benchmark of 101
research papers paired with author-created presentation videos, slides, and
speaker metadata. We further design four tailored evaluation metrics--Meta
Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos
convey the paper's information to the audience. Building on this foundation, we
propose PaperTalker, the first multi-agent framework for academic presentation
video generation. It integrates slide generation with effective layout
refinement by a novel effective tree search visual choice, cursor grounding,
subtitling, speech synthesis, and talking-head rendering, while parallelizing
slide-wise generation for efficiency. Experiments on Paper2Video demonstrate
that the presentation videos produced by our approach are more faithful and
informative than existing baselines, establishing a practical step toward
automated and ready-to-use academic video generation. Our dataset, agent, and
code are available at https://github.com/showlab/Paper2Video.