PresentAgent: Multimodaler Agent zur Generierung von Präsentationsvideos

papers.abstract

Wir stellen PresentAgent vor, einen multimodalen Agenten, der langformatige Dokumente in erzählte Präsentationsvideos umwandelt. Während bestehende Ansätze auf die Erstellung statischer Folien oder Textzusammenfassungen beschränkt sind, geht unsere Methode über diese Einschränkungen hinaus, indem sie vollständig synchronisierte visuelle und gesprochene Inhalte erzeugt, die menschliche Präsentationen eng nachahmen. Um diese Integration zu erreichen, verwendet PresentAgent eine modulare Pipeline, die das Eingabedokument systematisch segmentiert, Folien-artige visuelle Rahmen plant und rendert, kontextbezogene gesprochene Erzählungen mit großen Sprachmodellen und Text-zu-Sprache-Modellen generiert und das endgültige Video mit präziser audiovisueller Ausrichtung nahtlos zusammensetzt. Angesichts der Komplexität der Bewertung solcher multimodaler Ausgaben führen wir PresentEval ein, ein einheitliches Bewertungsframework, das von Vision-Sprache-Modellen unterstützt wird und Videos umfassend in drei kritischen Dimensionen bewertet: Inhaltsgenauigkeit, visuelle Klarheit und Zuschauerverständnis durch prompt-basierte Evaluation. Unsere experimentelle Validierung an einem kuratierten Datensatz von 30 Dokument-Präsentations-Paaren zeigt, dass PresentAgent in allen Bewertungsmetriken menschenähnliche Qualität erreicht. Diese Ergebnisse unterstreichen das erhebliche Potenzial kontrollierbarer multimodaler Agenten bei der Transformation statischer Textmaterialien in dynamische, effektive und zugängliche Präsentationsformate. Der Code wird unter https://github.com/AIGeeksGroup/PresentAgent verfügbar sein.

English

We present PresentAgent, a multimodal agent that transforms long-form documents into narrated presentation videos. While existing approaches are limited to generating static slides or text summaries, our method advances beyond these limitations by producing fully synchronized visual and spoken content that closely mimics human-style presentations. To achieve this integration, PresentAgent employs a modular pipeline that systematically segments the input document, plans and renders slide-style visual frames, generates contextual spoken narration with large language models and Text-to-Speech models, and seamlessly composes the final video with precise audio-visual alignment. Given the complexity of evaluating such multimodal outputs, we introduce PresentEval, a unified assessment framework powered by Vision-Language Models that comprehensively scores videos across three critical dimensions: content fidelity, visual clarity, and audience comprehension through prompt-based evaluation. Our experimental validation on a curated dataset of 30 document-presentation pairs demonstrates that PresentAgent approaches human-level quality across all evaluation metrics. These results highlight the significant potential of controllable multimodal agents in transforming static textual materials into dynamic, effective, and accessible presentation formats. Code will be available at https://github.com/AIGeeksGroup/PresentAgent.

PresentAgent: Multimodaler Agent zur Generierung von Präsentationsvideos

PresentAgent: Multimodal Agent for Presentation Video Generation

papers.abstract

Support