DeepPresenter: Reflexão Fundamentada no Ambiente para Geração de Apresentações Autônomas

Resumo

A geração de apresentações exige pesquisa profunda de conteúdo, design visual coerente e refinamento iterativo com base na observação. No entanto, os agentes de apresentação existentes frequentemente dependem de fluxos de trabalho predefinidos e modelos fixos. Para resolver isso, apresentamos o DeepPresenter, uma estrutura agentiva que se adapta a diversas intenções do utilizador, permite um refinamento eficaz orientado por *feedback* e generaliza para além de um *pipeline* scriptado. Especificamente, o DeepPresenter planeia, renderiza e revê de forma autónoma artefactos intermédios de diapositivos para suportar um refinamento de longo horizonte com observações ambientais. Além disso, em vez de depender da autorreflexão sobre sinais internos (por exemplo, *traces* de raciocínio), a nossa reflexão fundamentada no ambiente condiciona o processo de geração aos estados perceptivos dos artefactos (por exemplo, diapositivos renderizados), permitindo que o sistema identifique e corrija problemas específicos da apresentação durante a execução. Os resultados no conjunto de avaliação que abrange diversos cenários de geração de apresentações mostram que o DeepPresenter alcança um desempenho de última geração, e o modelo *fine-tuned* de 9B mantém-se altamente competitivo a um custo substancialmente inferior. O nosso projeto está disponível em: https://github.com/icip-cas/PPTAgent

English

Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent