AutoPresent: Criando Visualizações Estruturadas do Zero
AutoPresent: Designing Structured Visuals from Scratch
January 1, 2025
Autores: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI
Resumo
O design de visuais estruturados, como slides de apresentação, é essencial para as necessidades comunicativas, exigindo habilidades tanto na criação de conteúdo quanto no planejamento visual. Neste trabalho, abordamos o desafio da geração automatizada de slides, onde modelos produzem apresentações de slides a partir de instruções em linguagem natural (NL). Primeiramente, introduzimos o benchmark SlidesBench, o primeiro benchmark para geração de slides com 7k exemplos de treinamento e 585 exemplos de teste derivados de 310 conjuntos de slides em 10 domínios. O SlidesBench suporta avaliações que são (i) baseadas em referência para medir a similaridade com um slide-alvo e (ii) sem referência para medir a qualidade de design dos slides gerados isoladamente. Avaliamos métodos de geração de imagens e programas de ponta a ponta com uma variedade de modelos e descobrimos que os métodos programáticos produzem slides de maior qualidade em formatos interativos para o usuário. Com base no sucesso da geração de programas, criamos o AutoPresent, um modelo baseado em Llama de 8B treinado em 7k pares de instruções combinadas com código para geração de slides, e alcançamos resultados comparáveis ao modelo de código fechado GPT-4o. Exploramos ainda o refinamento iterativo de design, onde o modelo é encarregado de aprimorar sua própria saída, e descobrimos que esse processo melhora a qualidade do slide. Esperamos que nosso trabalho forneça uma base para futuros trabalhos sobre a geração de visuais estruturados.
English
Designing structured visuals such as presentation slides is essential for
communicative needs, necessitating both content creation and visual planning
skills. In this work, we tackle the challenge of automated slide generation,
where models produce slide presentations from natural language (NL)
instructions. We first introduce the SlidesBench benchmark, the first benchmark
for slide generation with 7k training and 585 testing examples derived from 310
slide decks across 10 domains. SlidesBench supports evaluations that are
(i)reference-based to measure similarity to a target slide, and
(ii)reference-free to measure the design quality of generated slides alone. We
benchmark end-to-end image generation and program generation methods with a
variety of models, and find that programmatic methods produce higher-quality
slides in user-interactable formats. Built on the success of program
generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs
of instructions paired with code for slide generation, and achieve results
comparable to the closed-source model GPT-4o. We further explore iterative
design refinement where the model is tasked to self-refine its own output, and
we found that this process improves the slide's quality. We hope that our work
will provide a basis for future work on generating structured visuals.