DeepPresenter: 환경에 기반한 에이전트 프레젠테이션 생성을 위한 성찰 기법
DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation
February 26, 2026
저자: Hao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun
cs.AI
초록
프레젠테이션 생성에는 심층적인 콘텐츠 연구, 일관성 있는 시각적 디자인, 관찰에 기반한 반복적 정제 과정이 필요합니다. 그러나 기존의 프레젠테이션 생성 에이전트는 주로 미리 정의된 워크플로우와 고정된 템플릿에 의존하는 경향이 있습니다. 이를 해결하기 위해 본 논문에서는 다양한 사용자 의도에 적응하고, 효과적인 피드백 기반 정제를 가능하게 하며, 정형화된 파이프라인의 한계를 극복하는 에이전트 기반 프레임워크인 DeepPresenter를 제안합니다. 구체적으로 DeepPresenter는 중간 슬라이드 산출물을 자율적으로 계획, 렌더링 및 수정하여 환경 관찰을 통한 장기적 정제를 지원합니다. 더 나아가 내부 신호(예: 추적痕迹)에 대한 자체 반성(self-reflection)에 의존하기보다, 인지 가능한 산출물 상태(예: 렌더링된 슬라이드)에 기반한 환경 접지형 반성(environment-grounded reflection)을 통해 생성 과정을 조건화함으로써 시스템이 실행 중에 프레젠테이션 특화 문제를 식별하고 수정할 수 있게 합니다. 다양한 프레젠테이션 생성 시나리오를 포함한 평가 세트에서의 결과는 DeepPresenter가 최첨단 성능을 달성하며, 미세 조정된 9B 모델이 훨씬 낮은 비용으로도 매우 경쟁력 있는 성과를 유지함을 보여줍니다. 본 프로젝트는 https://github.com/icip-cas/PPTAgent에서 확인할 수 있습니다.
English
Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent