PresentAgent: Agente Multimodal para Geração de Vídeos de Apresentação

Resumo

Apresentamos o PresentAgent, um agente multimodal que transforma documentos extensos em vídeos de apresentação narrados. Enquanto as abordagens existentes se limitam a gerar slides estáticos ou resumos textuais, nosso método avança além dessas limitações ao produzir conteúdo visual e falado totalmente sincronizado que imita de perto apresentações no estilo humano. Para alcançar essa integração, o PresentAgent emprega um pipeline modular que segmenta sistematicamente o documento de entrada, planeja e renderiza quadros visuais no estilo de slides, gera narração falada contextualizada com modelos de linguagem de grande escala e modelos de Texto para Fala, e compõe de forma fluida o vídeo final com um alinhamento preciso entre áudio e vídeo. Dada a complexidade de avaliar tais saídas multimodais, introduzimos o PresentEval, uma estrutura de avaliação unificada alimentada por Modelos de Visão-Linguagem que pontua de forma abrangente os vídeos em três dimensões críticas: fidelidade do conteúdo, clareza visual e compreensão do público por meio de avaliação baseada em prompts. Nossa validação experimental em um conjunto de dados curados de 30 pares de documento-apresentação demonstra que o PresentAgent se aproxima da qualidade humana em todas as métricas de avaliação. Esses resultados destacam o potencial significativo de agentes multimodais controláveis na transformação de materiais textuais estáticos em formatos de apresentação dinâmicos, eficazes e acessíveis. O código estará disponível em https://github.com/AIGeeksGroup/PresentAgent.

English

We present PresentAgent, a multimodal agent that transforms long-form documents into narrated presentation videos. While existing approaches are limited to generating static slides or text summaries, our method advances beyond these limitations by producing fully synchronized visual and spoken content that closely mimics human-style presentations. To achieve this integration, PresentAgent employs a modular pipeline that systematically segments the input document, plans and renders slide-style visual frames, generates contextual spoken narration with large language models and Text-to-Speech models, and seamlessly composes the final video with precise audio-visual alignment. Given the complexity of evaluating such multimodal outputs, we introduce PresentEval, a unified assessment framework powered by Vision-Language Models that comprehensively scores videos across three critical dimensions: content fidelity, visual clarity, and audience comprehension through prompt-based evaluation. Our experimental validation on a curated dataset of 30 document-presentation pairs demonstrates that PresentAgent approaches human-level quality across all evaluation metrics. These results highlight the significant potential of controllable multimodal agents in transforming static textual materials into dynamic, effective, and accessible presentation formats. Code will be available at https://github.com/AIGeeksGroup/PresentAgent.

PresentAgent: Agente Multimodal para Geração de Vídeos de Apresentação

PresentAgent: Multimodal Agent for Presentation Video Generation

Resumo

Support