PresentAgent: Agente Multimodale per la Generazione di Video di Presentazione

Abstract

Presentiamo PresentAgent, un agente multimodale che trasforma documenti di lunga durata in video di presentazione narrati. Mentre gli approcci esistenti si limitano a generare slide statiche o riassunti testuali, il nostro metodo supera queste limitazioni producendo contenuti visivi e parlati completamente sincronizzati che imitano da vicino lo stile delle presentazioni umane. Per ottenere questa integrazione, PresentAgent utilizza una pipeline modulare che segmenta sistematicamente il documento di input, pianifica e renderizza frame visivi in stile slide, genera una narrazione parlata contestuale con modelli linguistici di grandi dimensioni e modelli di sintesi vocale, e compone in modo fluido il video finale con un preciso allineamento audio-visivo. Data la complessità della valutazione di tali output multimodali, introduciamo PresentEval, un framework di valutazione unificato basato su modelli visione-linguaggio che assegna punteggi completi ai video attraverso tre dimensioni critiche: fedeltà del contenuto, chiarezza visiva e comprensione del pubblico mediante valutazione basata su prompt. La nostra validazione sperimentale su un dataset curato di 30 coppie documento-presentazione dimostra che PresentAgent si avvicina alla qualità umana in tutte le metriche di valutazione. Questi risultati evidenziano il significativo potenziale degli agenti multimodali controllabili nel trasformare materiali testuali statici in formati di presentazione dinamici, efficaci e accessibili. Il codice sarà disponibile all'indirizzo https://github.com/AIGeeksGroup/PresentAgent.

English

We present PresentAgent, a multimodal agent that transforms long-form documents into narrated presentation videos. While existing approaches are limited to generating static slides or text summaries, our method advances beyond these limitations by producing fully synchronized visual and spoken content that closely mimics human-style presentations. To achieve this integration, PresentAgent employs a modular pipeline that systematically segments the input document, plans and renders slide-style visual frames, generates contextual spoken narration with large language models and Text-to-Speech models, and seamlessly composes the final video with precise audio-visual alignment. Given the complexity of evaluating such multimodal outputs, we introduce PresentEval, a unified assessment framework powered by Vision-Language Models that comprehensively scores videos across three critical dimensions: content fidelity, visual clarity, and audience comprehension through prompt-based evaluation. Our experimental validation on a curated dataset of 30 document-presentation pairs demonstrates that PresentAgent approaches human-level quality across all evaluation metrics. These results highlight the significant potential of controllable multimodal agents in transforming static textual materials into dynamic, effective, and accessible presentation formats. Code will be available at https://github.com/AIGeeksGroup/PresentAgent.

PresentAgent: Agente Multimodale per la Generazione di Video di Presentazione

PresentAgent: Multimodal Agent for Presentation Video Generation

Abstract

Support