PresentAgent : Agent multimodal pour la génération de vidéos de présentation

papers.abstract

Nous présentons PresentAgent, un agent multimodal qui transforme des documents longs en vidéos de présentation narrées. Alors que les approches existantes se limitent à générer des diapositives statiques ou des résumés textuels, notre méthode va au-delà de ces limitations en produisant un contenu visuel et oral parfaitement synchronisé qui imite de près les présentations de style humain. Pour réaliser cette intégration, PresentAgent utilise un pipeline modulaire qui segmente systématiquement le document d'entrée, planifie et rend des cadres visuels de type diapositive, génère une narration orale contextuelle avec des modèles de langage de grande envergure et des modèles de synthèse vocale, et compose de manière fluide la vidéo finale avec un alignement audio-visuel précis. Face à la complexité de l'évaluation de telles sorties multimodales, nous introduisons PresentEval, un cadre d'évaluation unifié alimenté par des modèles vision-langage qui évalue de manière exhaustive les vidéos selon trois dimensions critiques : la fidélité du contenu, la clarté visuelle et la compréhension par l'auditoire via une évaluation basée sur des prompts. Notre validation expérimentale sur un ensemble de données soigneusement sélectionné de 30 paires document-présentation démontre que PresentAgent atteint une qualité proche de celle d'un humain sur tous les critères d'évaluation. Ces résultats mettent en évidence le potentiel significatif des agents multimodaux contrôlables pour transformer des matériaux textuels statiques en formats de présentation dynamiques, efficaces et accessibles. Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/PresentAgent.

English

We present PresentAgent, a multimodal agent that transforms long-form documents into narrated presentation videos. While existing approaches are limited to generating static slides or text summaries, our method advances beyond these limitations by producing fully synchronized visual and spoken content that closely mimics human-style presentations. To achieve this integration, PresentAgent employs a modular pipeline that systematically segments the input document, plans and renders slide-style visual frames, generates contextual spoken narration with large language models and Text-to-Speech models, and seamlessly composes the final video with precise audio-visual alignment. Given the complexity of evaluating such multimodal outputs, we introduce PresentEval, a unified assessment framework powered by Vision-Language Models that comprehensively scores videos across three critical dimensions: content fidelity, visual clarity, and audience comprehension through prompt-based evaluation. Our experimental validation on a curated dataset of 30 document-presentation pairs demonstrates that PresentAgent approaches human-level quality across all evaluation metrics. These results highlight the significant potential of controllable multimodal agents in transforming static textual materials into dynamic, effective, and accessible presentation formats. Code will be available at https://github.com/AIGeeksGroup/PresentAgent.

PresentAgent : Agent multimodal pour la génération de vidéos de présentation

PresentAgent: Multimodal Agent for Presentation Video Generation

papers.abstract

Support