ChatPaper.aiChatPaper

AutoPresent: Entwurf strukturierter Visuals von Grund auf

AutoPresent: Designing Structured Visuals from Scratch

January 1, 2025
papers.authors: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI

papers.abstract

Das Gestalten von strukturierten Visuals wie Präsentationsfolien ist für kommunikative Anforderungen unerlässlich und erfordert sowohl Fähigkeiten in der Inhaltserstellung als auch im visuellen Planen. In dieser Arbeit behandeln wir die Herausforderung der automatisierten Folien-Erstellung, bei der Modelle Präsentationsfolien aus natürlicher Sprache (NL) generieren. Zuerst stellen wir das SlidesBench-Benchmark vor, das erste Benchmark für die Folien-Erstellung mit 7k Trainings- und 585 Testbeispielen aus 310 Folien-Sets in 10 Domänen. SlidesBench unterstützt Bewertungen, die (i) referenzbasiert sind, um die Ähnlichkeit mit einer Ziel-Folie zu messen, und (ii) referenzfrei sind, um die Design-Qualität der generierten Folien allein zu messen. Wir bewerten End-to-End-Bildgenerierungs- und Programmgenerierungsmethoden mit verschiedenen Modellen und stellen fest, dass programmatische Methoden Folien in benutzerinteraktiven Formaten von höherer Qualität produzieren. Aufbauend auf dem Erfolg der Programmgenerierung erstellen wir AutoPresent, ein auf 8B Llama basierendes Modell, das auf 7k Paaren von Anweisungen trainiert ist, die mit Code für die Folien-Erstellung verbunden sind, und erzielen Ergebnisse, die mit dem Closed-Source-Modell GPT-4o vergleichbar sind. Wir untersuchen weiterhin die iterative Design-Verfeinerung, bei der das Modell beauftragt ist, seine eigene Ausgabe selbst zu verbessern, und stellen fest, dass dieser Prozess die Qualität der Folie verbessert. Wir hoffen, dass unsere Arbeit eine Grundlage für zukünftige Arbeiten zur Generierung strukturierter Visuals bieten wird.
English
Designing structured visuals such as presentation slides is essential for communicative needs, necessitating both content creation and visual planning skills. In this work, we tackle the challenge of automated slide generation, where models produce slide presentations from natural language (NL) instructions. We first introduce the SlidesBench benchmark, the first benchmark for slide generation with 7k training and 585 testing examples derived from 310 slide decks across 10 domains. SlidesBench supports evaluations that are (i)reference-based to measure similarity to a target slide, and (ii)reference-free to measure the design quality of generated slides alone. We benchmark end-to-end image generation and program generation methods with a variety of models, and find that programmatic methods produce higher-quality slides in user-interactable formats. Built on the success of program generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs of instructions paired with code for slide generation, and achieve results comparable to the closed-source model GPT-4o. We further explore iterative design refinement where the model is tasked to self-refine its own output, and we found that this process improves the slide's quality. We hope that our work will provide a basis for future work on generating structured visuals.
PDF82December 15, 2025