DeepPresenter : Réflexion ancrée dans l'environnement pour la génération de présentations agentiques
DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation
February 26, 2026
Auteurs: Hao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun
cs.AI
Résumé
La génération de présentations nécessite une recherche approfondie du contenu, une conception visuelle cohérente et un affinage itératif basé sur l'observation. Cependant, les agents de présentation existants reposent souvent sur des flux de travail prédéfinis et des modèles fixes. Pour résoudre ce problème, nous présentons DeepPresenter, un cadre agentique qui s'adapte aux diverses intentions des utilisateurs, permet un affinage efficace guidé par les retours et généralise au-delà d'un pipeline scripté. Plus précisément, DeepPresenter planifie, rend et révise de manière autonome les artefacts intermédiaires des diapositives pour soutenir un affinage à long terme avec des observations environnementales. De plus, plutôt que de s'appuyer sur l'auto-réflexion à partir de signaux internes (par exemple, les traces de raisonnement), notre réflexion ancrée dans l'environnement conditionne le processus de génération sur les états perceptuels des artefacts (par exemple, les diapositives rendues), permettant au système d'identifier et de corriger les problèmes spécifiques à la présentation lors de l'exécution. Les résultats sur l'ensemble d'évaluation couvrant divers scénarios de génération de présentations montrent que DeepPresenter atteint des performances de pointe, et le modèle finetuné de 9 milliards de paramètres reste très compétitif à un coût substantiellement inférieur. Notre projet est disponible à l'adresse : https://github.com/icip-cas/PPTAgent
English
Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent