ChatPaper.aiChatPaper

PresentAgent: Agente Multimodal para la Generación de Videos de Presentaciones

PresentAgent: Multimodal Agent for Presentation Video Generation

July 5, 2025
Autores: Jingwei Shi, Zeyu Zhang, Biao Wu, Yanjie Liang, Meng Fang, Ling Chen, Yang Zhao
cs.AI

Resumen

Presentamos PresentAgent, un agente multimodal que transforma documentos extensos en videos de presentaciones narradas. Mientras que los enfoques existentes se limitan a generar diapositivas estáticas o resúmenes de texto, nuestro método avanza más allá de estas limitaciones al producir contenido visual y hablado completamente sincronizado que imita de cerca las presentaciones de estilo humano. Para lograr esta integración, PresentAgent emplea una canalización modular que segmenta sistemáticamente el documento de entrada, planifica y renderiza marcos visuales en estilo de diapositivas, genera narración hablada contextualizada con modelos de lenguaje grande y modelos de Texto a Voz, y compone de manera fluida el video final con una alineación precisa de audio y video. Dada la complejidad de evaluar tales salidas multimodales, introducimos PresentEval, un marco de evaluación unificado impulsado por Modelos de Visión-Lenguaje que califica de manera integral los videos en tres dimensiones críticas: fidelidad del contenido, claridad visual y comprensión de la audiencia a través de una evaluación basada en indicaciones. Nuestra validación experimental en un conjunto de datos curado de 30 pares de documento-presentación demuestra que PresentAgent se acerca a la calidad de nivel humano en todas las métricas de evaluación. Estos resultados resaltan el potencial significativo de los agentes multimodales controlables para transformar materiales textuales estáticos en formatos de presentación dinámicos, efectivos y accesibles. El código estará disponible en https://github.com/AIGeeksGroup/PresentAgent.
English
We present PresentAgent, a multimodal agent that transforms long-form documents into narrated presentation videos. While existing approaches are limited to generating static slides or text summaries, our method advances beyond these limitations by producing fully synchronized visual and spoken content that closely mimics human-style presentations. To achieve this integration, PresentAgent employs a modular pipeline that systematically segments the input document, plans and renders slide-style visual frames, generates contextual spoken narration with large language models and Text-to-Speech models, and seamlessly composes the final video with precise audio-visual alignment. Given the complexity of evaluating such multimodal outputs, we introduce PresentEval, a unified assessment framework powered by Vision-Language Models that comprehensively scores videos across three critical dimensions: content fidelity, visual clarity, and audience comprehension through prompt-based evaluation. Our experimental validation on a curated dataset of 30 document-presentation pairs demonstrates that PresentAgent approaches human-level quality across all evaluation metrics. These results highlight the significant potential of controllable multimodal agents in transforming static textual materials into dynamic, effective, and accessible presentation formats. Code will be available at https://github.com/AIGeeksGroup/PresentAgent.
PDF41July 8, 2025