AutoPresent: Progettare Immagini Strutturate da Zero
AutoPresent: Designing Structured Visuals from Scratch
January 1, 2025
Autori: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI
Abstract
La progettazione di elementi visivi strutturati come diapositive di presentazione è essenziale per le esigenze comunicative, richiedendo sia la creazione di contenuti che le capacità di pianificazione visiva. In questo lavoro, affrontiamo la sfida della generazione automatica di diapositive, in cui i modelli producono presentazioni di diapositive da istruzioni in linguaggio naturale (NL). Introduciamo innanzitutto il benchmark SlidesBench, il primo benchmark per la generazione di diapositive con 7k esempi di addestramento e 585 di test derivati da 310 set di diapositive in 10 domini. SlidesBench supporta valutazioni che sono (i) basate su riferimenti per misurare la similarità con una diapositiva di destinazione, e (ii) senza riferimenti per misurare la qualità progettuale delle diapositive generate da sole. Mettiamo a confronto metodi di generazione di immagini e di programmazione end-to-end con una varietà di modelli, e scopriamo che i metodi programmatici producono diapositive di qualità superiore in formati interattivi per gli utenti. Basandoci sul successo della generazione di programmi, creiamo AutoPresent, un modello basato su 8B Llama addestrato su 7k coppie di istruzioni abbinate a codice per la generazione di diapositive, ottenendo risultati paragonabili al modello closed-source GPT-4o. Esploriamo inoltre il raffinamento del design iterativo in cui il modello è incaricato di perfezionare autonomamente il proprio output, e abbiamo riscontrato che questo processo migliora la qualità della diapositiva. Speriamo che il nostro lavoro fornisca una base per futuri studi sulla generazione di elementi visivi strutturati.
English
Designing structured visuals such as presentation slides is essential for
communicative needs, necessitating both content creation and visual planning
skills. In this work, we tackle the challenge of automated slide generation,
where models produce slide presentations from natural language (NL)
instructions. We first introduce the SlidesBench benchmark, the first benchmark
for slide generation with 7k training and 585 testing examples derived from 310
slide decks across 10 domains. SlidesBench supports evaluations that are
(i)reference-based to measure similarity to a target slide, and
(ii)reference-free to measure the design quality of generated slides alone. We
benchmark end-to-end image generation and program generation methods with a
variety of models, and find that programmatic methods produce higher-quality
slides in user-interactable formats. Built on the success of program
generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs
of instructions paired with code for slide generation, and achieve results
comparable to the closed-source model GPT-4o. We further explore iterative
design refinement where the model is tasked to self-refine its own output, and
we found that this process improves the slide's quality. We hope that our work
will provide a basis for future work on generating structured visuals.