ChatPaper.aiChatPaper

DeepPresenter: Riflessione basata sull'ambiente per la generazione di presentazioni agentive

DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

February 26, 2026
Autori: Hao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun
cs.AI

Abstract

La generazione di presentazioni richiede una ricerca approfondita dei contenuti, una progettazione visiva coerente e un perfezionamento iterativo basato sull'osservazione. Tuttavia, gli agenti di presentazione esistenti spesso si basano su flussi di lavoro predefiniti e modelli fissi. Per affrontare questa limitazione, presentiamo DeepPresenter, un framework agente che si adatta a diverse intenzioni dell'utente, consente un efficace perfezionamento guidato dal feedback e generalizza oltre una pipeline predefinita. Nello specifico, DeepPresenter pianifica, renderizza e revisiona in modo autonomo gli artefatti intermedi delle slide per supportare un perfezionamento a lungo termine con osservazioni ambientali. Inoltre, invece di basarsi sull'auto-riflessione su segnali interni (ad esempio, tracce di ragionamento), la nostra riflessione ancorata all'ambiente condiziona il processo di generazione sugli stati percettivi degli artefatti (ad esempio, slide renderizzate), consentendo al sistema di identificare e correggere problemi specifici della presentazione durante l'esecuzione. I risultati sul set di valutazione, che copre diversi scenari di generazione di presentazioni, mostrano che DeepPresenter raggiunge prestazioni all'avanguardia, e il modello fine-tuned da 9B rimane altamente competitivo a costi sostanzialmente inferiori. Il nostro progetto è disponibile all'indirizzo: https://github.com/icip-cas/PPTAgent
English
Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent
PDF22March 10, 2026