ChatPaper.aiChatPaper

PresentAgent-2: Rumo a agentes generalistas de apresentação multimodal

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

May 12, 2026
Autores: Wei Wu, Ziyang Xu, Zeyu Zhang, Yang Zhao, Hao Tang
cs.AI

Resumo

A geração de apresentações está evoluindo da criação estática de slides para a geração ponta a ponta de vídeos de apresentação, com fundamentação em pesquisa, mídia multimodal e entrega interativa. Apresentamos o PresentAgent-2, um framework agentivo para gerar vídeos de apresentação a partir de consultas de usuários. Dada uma consulta aberta do usuário e um modo de apresentação selecionado, o PresentAgent-2 primeiro resume a consulta em um tópico focado e realiza uma pesquisa aprofundada em fontes adequadas para apresentações, coletando recursos multimodais, incluindo texto, imagens, GIFs e vídeos relevantes. Em seguida, ele constrói os slides da apresentação, gera roteiros específicos para cada modo e compõe slides, áudio e mídia dinâmica em um vídeo de apresentação completo. O PresentAgent-2 suporta três modos de apresentação independentes dentro de um framework unificado: Apresentação Individual, que gera um vídeo de apresentação narrado por um único orador; Discussão, que cria uma apresentação com múltiplos oradores e papéis estruturados, como fazer perguntas norteadoras, explicar conceitos, esclarecer detalhes e resumir pontos-chave; e Interação, que suporta de forma independente a resposta a perguntas da audiência com base nos slides gerados, nos roteiros, nas evidências recuperadas e no contexto da apresentação. Para avaliar essas capacidades, construímos um benchmark multimodal de apresentações que abrange cenários de apresentação individual, discussão e interação, com critérios de avaliação específicos para cada tarefa, incluindo qualidade do conteúdo, relevância da mídia, uso de mídia dinâmica, naturalidade do diálogo e fundamentação da interação. No geral, o PresentAgent-2 expande a geração de apresentações, indo da criação de slides dependentes de documentos para a geração de vídeos de apresentação orientados por consultas e fundamentados em pesquisa, com mídia multimodal, diálogo e interação. Código: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.
English
Presentation generation is moving beyond static slide creation toward end-to-end presentation video generation with research grounding, multimodal media, and interactive delivery. We introduce PresentAgent-2, an agentic framework for generating presentation videos from user queries. Given an open-ended user query and a selected presentation mode, PresentAgent-2 first summarizes the query into a focused topic and performs deep research over presentation-friendly sources to collect multimodal resources, including relevant text, images, GIFs, and videos. It then constructs presentation slides, generates mode-specific scripts, and composes slides, audio, and dynamic media into a complete presentation video. PresentAgent-2 supports three independent presentation modes within a unified framework: Single Presentation, which generates a single-speaker narrated presentation video; Discussion, which creates a multi-speaker presentation with structured speaker roles, such as for asking guiding questions, explaining concepts, clarifying details, and summarizing key points; and Interaction, which independently supports answering audience questions grounded in the generated slides, scripts, retrieved evidence, and presentation context. To evaluate these capabilities, we build a multimodal presentation benchmark covering single presentation, discussion, and interaction scenarios, with task-specific evaluation criteria for content quality, media relevance, dynamic media use, dialogue naturalness, and interaction grounding. Overall, PresentAgent-2 extends presentation generation from document-dependent slide creation to query-driven, research-grounded presentation video generation with multimodal media, dialogue, and interaction. Code: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.