ChatPaper.aiChatPaper

PresentAgent: Мультимодальный агент для генерации презентационных видео

PresentAgent: Multimodal Agent for Presentation Video Generation

July 5, 2025
Авторы: Jingwei Shi, Zeyu Zhang, Biao Wu, Yanjie Liang, Meng Fang, Ling Chen, Yang Zhao
cs.AI

Аннотация

Мы представляем PresentAgent, мультимодальный агент, который преобразует длинные документы в видеопрезентации с озвучкой. В то время как существующие подходы ограничиваются генерацией статических слайдов или текстовых сводок, наш метод выходит за рамки этих ограничений, создавая полностью синхронизированные визуальные и речевые материалы, которые близко имитируют презентации в человеческом стиле. Для достижения такой интеграции PresentAgent использует модульный конвейер, который систематически сегментирует входной документ, планирует и создает визуальные кадры в стиле слайдов, генерирует контекстуальную озвучку с использованием крупных языковых моделей и моделей преобразования текста в речь, а также бесшовно компонует итоговое видео с точным аудиовизуальным соответствием. Учитывая сложность оценки таких мультимодальных результатов, мы представляем PresentEval, унифицированную систему оценки, основанную на моделях Vision-Language, которая комплексно оценивает видео по трем ключевым параметрам: точность содержания, визуальная ясность и понимание аудитории через оценку на основе промптов. Наша экспериментальная проверка на тщательно отобранном наборе данных из 30 пар документ-презентация демонстрирует, что PresentAgent приближается к качеству, создаваемому человеком, по всем метрикам оценки. Эти результаты подчеркивают значительный потенциал управляемых мультимодальных агентов в преобразовании статических текстовых материалов в динамичные, эффективные и доступные форматы презентаций. Код будет доступен по адресу https://github.com/AIGeeksGroup/PresentAgent.
English
We present PresentAgent, a multimodal agent that transforms long-form documents into narrated presentation videos. While existing approaches are limited to generating static slides or text summaries, our method advances beyond these limitations by producing fully synchronized visual and spoken content that closely mimics human-style presentations. To achieve this integration, PresentAgent employs a modular pipeline that systematically segments the input document, plans and renders slide-style visual frames, generates contextual spoken narration with large language models and Text-to-Speech models, and seamlessly composes the final video with precise audio-visual alignment. Given the complexity of evaluating such multimodal outputs, we introduce PresentEval, a unified assessment framework powered by Vision-Language Models that comprehensively scores videos across three critical dimensions: content fidelity, visual clarity, and audience comprehension through prompt-based evaluation. Our experimental validation on a curated dataset of 30 document-presentation pairs demonstrates that PresentAgent approaches human-level quality across all evaluation metrics. These results highlight the significant potential of controllable multimodal agents in transforming static textual materials into dynamic, effective, and accessible presentation formats. Code will be available at https://github.com/AIGeeksGroup/PresentAgent.
PDF41July 8, 2025