PresentAgent-2: Naar Generalistische Multimodale Presentatieagenten

Samenvatting

Presentatiegeneratie beweegt zich voorbij statische diaproductie naar end-to-end presentatievideogeneratie met onderzoeksfundering, multimodale media en interactieve levering. We introduceren PresentAgent-2, een agentisch raamwerk voor het genereren van presentatievideo's op basis van gebruikersvragen. Gegeven een open gebruikersvraag en een geselecteerde presentatiemodus, vat PresentAgent-2 eerst de vraag samen tot een gefocust onderwerp en voert diepgaand onderzoek uit over presentatievriendelijke bronnen om multimodale bronnen te verzamelen, waaronder relevante tekst, afbeeldingen, GIF's en video's. Vervolgens construeert het presentatiedia's, genereert modusspecifieke scripts en stelt dia's, audio en dynamische media samen tot een volledige presentatievideo. PresentAgent-2 ondersteunt drie onafhankelijke presentatiemodi binnen een uniform raamwerk: Enkelvoudige presentatie, die een presentatievideo met één spreker en vertelling genereert; Discussie, die een presentatie met meerdere sprekers creëert met gestructureerde sprekersrollen, zoals voor het stellen van leidende vragen, uitleggen van concepten, verduidelijken van details en samenvatten van kernpunten; en Interactie, die zelfstandig het beantwoorden van publieksvragen ondersteunt, gebaseerd op de gegenereerde dia's, scripts, opgehaalde bewijs en presentatiecontext. Om deze mogelijkheden te evalueren, bouwen we een multimodale presentatiebenchmark die scenario's voor enkelvoudige presentatie, discussie en interactie omvat, met taakspecifieke evaluatiecriteria voor inhoudskwaliteit, mediarelevantie, dynamisch mediagebruik, dialoognatuurlijkheid en interactiefundering. Al met al breidt PresentAgent-2 presentatiegeneratie uit van documentafhankelijke diaproductie naar query-gedreven, onderzoeksgebaseerde presentatievideogeneratie met multimodale media, dialoog en interactie. Code: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.

English

Presentation generation is moving beyond static slide creation toward end-to-end presentation video generation with research grounding, multimodal media, and interactive delivery. We introduce PresentAgent-2, an agentic framework for generating presentation videos from user queries. Given an open-ended user query and a selected presentation mode, PresentAgent-2 first summarizes the query into a focused topic and performs deep research over presentation-friendly sources to collect multimodal resources, including relevant text, images, GIFs, and videos. It then constructs presentation slides, generates mode-specific scripts, and composes slides, audio, and dynamic media into a complete presentation video. PresentAgent-2 supports three independent presentation modes within a unified framework: Single Presentation, which generates a single-speaker narrated presentation video; Discussion, which creates a multi-speaker presentation with structured speaker roles, such as for asking guiding questions, explaining concepts, clarifying details, and summarizing key points; and Interaction, which independently supports answering audience questions grounded in the generated slides, scripts, retrieved evidence, and presentation context. To evaluate these capabilities, we build a multimodal presentation benchmark covering single presentation, discussion, and interaction scenarios, with task-specific evaluation criteria for content quality, media relevance, dynamic media use, dialogue naturalness, and interaction grounding. Overall, PresentAgent-2 extends presentation generation from document-dependent slide creation to query-driven, research-grounded presentation video generation with multimodal media, dialogue, and interaction. Code: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.