ChatPaper.aiChatPaper

AutoPresent: Diseñando Visuales Estructurados desde Cero

AutoPresent: Designing Structured Visuals from Scratch

January 1, 2025
Autores: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI

Resumen

Diseñar visuales estructurados como diapositivas de presentación es esencial para las necesidades comunicativas, requiriendo habilidades tanto en la creación de contenido como en la planificación visual. En este trabajo, abordamos el desafío de la generación automatizada de diapositivas, donde los modelos producen presentaciones de diapositivas a partir de instrucciones en lenguaje natural (NL). Primero presentamos el benchmark SlidesBench, el primer benchmark para la generación de diapositivas con 7k ejemplos de entrenamiento y 585 de prueba derivados de 310 conjuntos de diapositivas en 10 dominios. SlidesBench admite evaluaciones que son (i) basadas en referencia para medir la similitud con una diapositiva objetivo, y (ii) sin referencia para medir la calidad de diseño de las diapositivas generadas por sí solas. Evaluamos métodos de generación de imágenes y programas de extremo a extremo con una variedad de modelos, y encontramos que los métodos programáticos producen diapositivas de mayor calidad en formatos con los que el usuario puede interactuar. Basándonos en el éxito de la generación de programas, creamos AutoPresent, un modelo basado en Llama de 8B entrenado en 7k pares de instrucciones emparejadas con código para la generación de diapositivas, y logramos resultados comparables al modelo cerrado GPT-4o. Exploramos además el refinamiento iterativo del diseño donde el modelo tiene la tarea de automejorar su propia salida, y encontramos que este proceso mejora la calidad de la diapositiva. Esperamos que nuestro trabajo siente las bases para futuros trabajos sobre la generación de visuales estructurados.
English
Designing structured visuals such as presentation slides is essential for communicative needs, necessitating both content creation and visual planning skills. In this work, we tackle the challenge of automated slide generation, where models produce slide presentations from natural language (NL) instructions. We first introduce the SlidesBench benchmark, the first benchmark for slide generation with 7k training and 585 testing examples derived from 310 slide decks across 10 domains. SlidesBench supports evaluations that are (i)reference-based to measure similarity to a target slide, and (ii)reference-free to measure the design quality of generated slides alone. We benchmark end-to-end image generation and program generation methods with a variety of models, and find that programmatic methods produce higher-quality slides in user-interactable formats. Built on the success of program generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs of instructions paired with code for slide generation, and achieve results comparable to the closed-source model GPT-4o. We further explore iterative design refinement where the model is tasked to self-refine its own output, and we found that this process improves the slide's quality. We hope that our work will provide a basis for future work on generating structured visuals.
PDF82December 15, 2025