AutoPresent: Het ontwerpen van gestructureerde visuals vanaf nul
AutoPresent: Designing Structured Visuals from Scratch
January 1, 2025
Auteurs: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI
Samenvatting
Het ontwerpen van gestructureerde visuals zoals presentatieslides is essentieel voor communicatieve behoeften, waarbij zowel vaardigheden voor inhoudscreatie als visuele planning nodig zijn. In dit werk pakken we de uitdaging van geautomatiseerde dia-generatie aan, waar modellen presentatieslides produceren op basis van natuurlijke taal (NT) instructies. We introduceren eerst de SlidesBench benchmark, de eerste benchmark voor dia-generatie met 7k trainings- en 585 testvoorbeelden afkomstig van 310 dia-decks over 10 domeinen. SlidesBench ondersteunt evaluaties die (i) op referenties gebaseerd zijn om de gelijkenis met een doeldia te meten, en (ii) referentievrij om de ontwerpkwaliteit van gegenereerde dia's alleen te meten. We benchmarken end-to-end beeldgeneratie- en programmatische generatiemethoden met verschillende modellen, en vinden dat programmatische methoden dia's van hogere kwaliteit produceren in gebruikers-interactieve formaten. Voortbouwend op het succes van programmatische generatie, creëren we AutoPresent, een op 8B Llama-gebaseerd model getraind op 7k paren instructies gekoppeld aan code voor dia-generatie, en behalen resultaten vergelijkbaar met het gesloten-bronmodel GPT-4o. We verkennen verder iteratieve ontwerpverfijning waarbij het model wordt belast met het zelf verfijnen van de eigen output, en we hebben vastgesteld dat dit proces de kwaliteit van de dia verbetert. We hopen dat ons werk een basis zal vormen voor toekomstig werk over het genereren van gestructureerde visuals.
English
Designing structured visuals such as presentation slides is essential for
communicative needs, necessitating both content creation and visual planning
skills. In this work, we tackle the challenge of automated slide generation,
where models produce slide presentations from natural language (NL)
instructions. We first introduce the SlidesBench benchmark, the first benchmark
for slide generation with 7k training and 585 testing examples derived from 310
slide decks across 10 domains. SlidesBench supports evaluations that are
(i)reference-based to measure similarity to a target slide, and
(ii)reference-free to measure the design quality of generated slides alone. We
benchmark end-to-end image generation and program generation methods with a
variety of models, and find that programmatic methods produce higher-quality
slides in user-interactable formats. Built on the success of program
generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs
of instructions paired with code for slide generation, and achieve results
comparable to the closed-source model GPT-4o. We further explore iterative
design refinement where the model is tasked to self-refine its own output, and
we found that this process improves the slide's quality. We hope that our work
will provide a basis for future work on generating structured visuals.