Paper2Video: Автоматическая генерация видео из научных статей
Paper2Video: Automatic Video Generation from Scientific Papers
October 6, 2025
Авторы: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Аннотация
Видео академических презентаций стали важным средством коммуникации в научных исследованиях, однако их создание остается крайне трудоемким процессом, часто требующим часов работы над дизайном слайдов, записью и монтажом для короткого видео продолжительностью от 2 до 10 минут. В отличие от обычного видео, генерация презентационных видео связана с уникальными задачами: входные данные из научных статей, плотная мультимодальная информация (текст, графики, таблицы) и необходимость согласования нескольких связанных каналов, таких как слайды, субтитры, речь и говорящий человек. Для решения этих задач мы представляем PaperTalker — первый набор данных, включающий 101 научную статью, сопоставленную с авторскими презентационными видео, слайдами и метаданными докладчика. Мы также разработали четыре специализированных метрики оценки — Meta Similarity, PresentArena, PresentQuiz и IP Memory — для измерения того, насколько эффективно видео передает информацию статьи аудитории. На основе этого фундамента мы предлагаем PaperTalker — первую многоагентную систему для генерации академических презентационных видео. Она интегрирует создание слайдов с эффективным уточнением макета с помощью инновационного визуального выбора на основе поиска по дереву, привязку курсора, субтитрование, синтез речи и рендеринг говорящего, параллелизируя генерацию по слайдам для повышения эффективности. Эксперименты на наборе данных Paper2Video показали, что презентационные видео, созданные нашим подходом, более точны и информативны, чем существующие базовые методы, что представляет собой практический шаг к автоматизированной и готовой к использованию генерации академических видео. Наш набор данных, агент и код доступны по адресу https://github.com/showlab/Paper2Video.
English
Academic presentation videos have become an essential medium for research
communication, yet producing them remains highly labor-intensive, often
requiring hours of slide design, recording, and editing for a short 2 to 10
minutes video. Unlike natural video, presentation video generation involves
distinctive challenges: inputs from research papers, dense multi-modal
information (text, figures, tables), and the need to coordinate multiple
aligned channels such as slides, subtitles, speech, and human talker. To
address these challenges, we introduce PaperTalker, the first benchmark of 101
research papers paired with author-created presentation videos, slides, and
speaker metadata. We further design four tailored evaluation metrics--Meta
Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos
convey the paper's information to the audience. Building on this foundation, we
propose PaperTalker, the first multi-agent framework for academic presentation
video generation. It integrates slide generation with effective layout
refinement by a novel effective tree search visual choice, cursor grounding,
subtitling, speech synthesis, and talking-head rendering, while parallelizing
slide-wise generation for efficiency. Experiments on Paper2Video demonstrate
that the presentation videos produced by our approach are more faithful and
informative than existing baselines, establishing a practical step toward
automated and ready-to-use academic video generation. Our dataset, agent, and
code are available at https://github.com/showlab/Paper2Video.