DeepPresenter: Umgebungsbasierte Reflexion zur agentenbasierten Präsentationsgenerierung

Zusammenfassung

Die Erstellung von Präsentationen erfordert tiefgehende Inhaltsrecherche, kohärentes visuelles Design und iterative Verbesserungen auf Grundlage von Beobachtungen. Bisherige Präsentationsagenten greifen jedoch oft auf vordefinierte Arbeitsabläufe und feste Vorlagen zurück. Um dieses Problem zu lösen, stellen wir DeepPresenter vor, ein agentenbasiertes Framework, das sich an verschiedene Nutzerabsichten anpasst, eine effektive feedbackgesteuerte Verfeinerung ermöglicht und über eine skriptbasierte Pipeline hinaus generalisiert. Konkret plant, rendert und überarbeitet DeepPresenter autonom Zwischenstände von Folien, um langfristige Verbesserungen mit Umgebungsbeobachtungen zu unterstützen. Darüber hinaus basiert unsere umgebungsgestützte Reflexion – statt auf Selbstreflexion interner Signale (z.B. Reasoning Traces) – auf dem Generierungsprozess von Wahrnehmungszuständen der Artefakte (z.B. gerenderte Folien), wodurch das System in der Lage ist, präsentationsspezifische Probleme während der Ausführung zu identifizieren und zu korrigieren. Ergebnisse auf dem Evaluationsdatensatz, der verschiedene Präsentationsszenarien abdeckt, zeigen, dass DeepPresenter state-of-the-art Leistung erzielt und das feinabgestimmte 9B-Modell bei deutlich geringeren Kosten äußerst wettbewerbsfähig bleibt. Unser Projekt ist verfügbar unter: https://github.com/icip-cas/PPTAgent

English

Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent

DeepPresenter: Umgebungsbasierte Reflexion zur agentenbasierten Präsentationsgenerierung

DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

Zusammenfassung

Support