PresentAgent: Multimodale Agent voor Presentatievideogeneratie

Samenvatting

We presenteren PresentAgent, een multimodale agent die lange documenten omzet in vertelde presentatievideo's. Terwijl bestaande methoden beperkt zijn tot het genereren van statische dia's of tekstsamenvattingen, gaat onze methode verder dan deze beperkingen door volledig gesynchroniseerde visuele en gesproken content te produceren die nauw aansluit bij menselijke presentatiestijlen. Om deze integratie te bereiken, gebruikt PresentAgent een modulaire pijplijn die het invoerdocument systematisch segmenteert, dia-achtige visuele frames plant en weergeeft, contextuele gesproken narratie genereert met behulp van grote taalmodellen en Text-to-Speech-modellen, en de uiteindelijke video naadloos samenstelt met precieze audio-visuele afstemming. Gezien de complexiteit van het evalueren van dergelijke multimodale uitvoer, introduceren we PresentEval, een geïntegreerd evaluatiekader aangedreven door Vision-Language Models dat video's uitgebreid beoordeelt op drie kritische dimensies: inhoudelijke trouw, visuele helderheid en publieksbegrip via prompt-gebaseerde evaluatie. Onze experimentele validatie op een gecureerde dataset van 30 document-presentatieparen toont aan dat PresentAgent menselijke kwaliteit benadert op alle evaluatiemetrics. Deze resultaten onderstrepen het aanzienlijke potentieel van controleerbare multimodale agents in het transformeren van statische tekstuele materialen naar dynamische, effectieve en toegankelijke presentatieformaten. De code zal beschikbaar zijn op https://github.com/AIGeeksGroup/PresentAgent.

English

We present PresentAgent, a multimodal agent that transforms long-form documents into narrated presentation videos. While existing approaches are limited to generating static slides or text summaries, our method advances beyond these limitations by producing fully synchronized visual and spoken content that closely mimics human-style presentations. To achieve this integration, PresentAgent employs a modular pipeline that systematically segments the input document, plans and renders slide-style visual frames, generates contextual spoken narration with large language models and Text-to-Speech models, and seamlessly composes the final video with precise audio-visual alignment. Given the complexity of evaluating such multimodal outputs, we introduce PresentEval, a unified assessment framework powered by Vision-Language Models that comprehensively scores videos across three critical dimensions: content fidelity, visual clarity, and audience comprehension through prompt-based evaluation. Our experimental validation on a curated dataset of 30 document-presentation pairs demonstrates that PresentAgent approaches human-level quality across all evaluation metrics. These results highlight the significant potential of controllable multimodal agents in transforming static textual materials into dynamic, effective, and accessible presentation formats. Code will be available at https://github.com/AIGeeksGroup/PresentAgent.

PresentAgent: Multimodale Agent voor Presentatievideogeneratie

PresentAgent: Multimodal Agent for Presentation Video Generation

Samenvatting

Support