AutoPrésent : Conception de visuels structurés à partir de zéro
AutoPresent: Designing Structured Visuals from Scratch
January 1, 2025
papers.authors: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI
papers.abstract
La conception de visuels structurés tels que des diapositives de présentation est essentielle pour les besoins de communication, nécessitant à la fois la création de contenu et des compétences en planification visuelle. Dans ce travail, nous abordons le défi de la génération automatisée de diapositives, où les modèles produisent des présentations de diapositives à partir d'instructions en langage naturel (NL). Nous introduisons d'abord le benchmark SlidesBench, le premier benchmark pour la génération de diapositives avec 7k exemples d'entraînement et 585 exemples de test dérivés de 310 jeux de diapositives à travers 10 domaines. SlidesBench prend en charge des évaluations qui sont (i) basées sur des références pour mesurer la similarité avec une diapositive cible, et (ii) sans référence pour mesurer la qualité de conception des diapositives générées seules. Nous évaluons la génération d'images de bout en bout et les méthodes de génération de programmes avec une variété de modèles, et constatons que les méthodes programmatiques produisent des diapositives de meilleure qualité dans des formats interactifs pour l'utilisateur. S'appuyant sur le succès de la génération de programmes, nous créons AutoPresent, un modèle basé sur Llama 8B entraîné sur 7k paires d'instructions associées à du code pour la génération de diapositives, et obtenons des résultats comparables au modèle GPT-4o en source fermée. Nous explorons en outre le raffinement itératif de la conception où le modèle est chargé d'améliorer lui-même sa propre sortie, et nous avons constaté que ce processus améliore la qualité de la diapositive. Nous espérons que notre travail servira de base pour les futures recherches sur la génération de visuels structurés.
English
Designing structured visuals such as presentation slides is essential for
communicative needs, necessitating both content creation and visual planning
skills. In this work, we tackle the challenge of automated slide generation,
where models produce slide presentations from natural language (NL)
instructions. We first introduce the SlidesBench benchmark, the first benchmark
for slide generation with 7k training and 585 testing examples derived from 310
slide decks across 10 domains. SlidesBench supports evaluations that are
(i)reference-based to measure similarity to a target slide, and
(ii)reference-free to measure the design quality of generated slides alone. We
benchmark end-to-end image generation and program generation methods with a
variety of models, and find that programmatic methods produce higher-quality
slides in user-interactable formats. Built on the success of program
generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs
of instructions paired with code for slide generation, and achieve results
comparable to the closed-source model GPT-4o. We further explore iterative
design refinement where the model is tasked to self-refine its own output, and
we found that this process improves the slide's quality. We hope that our work
will provide a basis for future work on generating structured visuals.