ChatPaper.aiChatPaper

DeepPresenter: Reflexión Fundamentada en el Entorno para la Generación de Presentaciones Autónomas

DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

February 26, 2026
Autores: Hao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun
cs.AI

Resumen

La generación de presentaciones requiere una investigación profunda del contenido, un diseño visual coherente y una refinación iterativa basada en la observación. Sin embargo, los agentes de presentación existentes a menudo dependen de flujos de trabajo predefinidos y plantillas fijas. Para abordar esto, presentamos DeepPresenter, un marco agéntico que se adapta a diversas intenciones del usuario, permite una refinación efectiva impulsada por retroalimentación y generaliza más allá de una canalización guionada. Específicamente, DeepPresenter planifica, renderiza y revisa de forma autónoma artefactos intermedios de diapositivas para apoyar una refinación de largo horizonte con observaciones del entorno. Además, en lugar de depender de la autorreflexión sobre señales internas (por ejemplo, trazas de razonamiento), nuestra reflexión basada en el entorno condiciona el proceso de generación a los estados perceptuales de los artefactos (por ejemplo, diapositivas renderizadas), permitiendo al sistema identificar y corregir problemas específicos de la presentación durante la ejecución. Los resultados en el conjunto de evaluación que cubre diversos escenarios de generación de presentaciones muestran que DeepPresenter logra un rendimiento de vanguardia, y el modelo ajustado de 9B mantiene una alta competitividad a un costo sustancialmente menor. Nuestro proyecto está disponible en: https://github.com/icip-cas/PPTAgent
English
Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent
PDF32May 8, 2026