ChatPaper.aiChatPaper

AutoPresent: Создание структурированных визуальных элементов с нуля

AutoPresent: Designing Structured Visuals from Scratch

January 1, 2025
Авторы: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI

Аннотация

Дизайн структурированных визуальных материалов, таких как слайды презентаций, является неотъемлемым элементом коммуникативных потребностей, требующим как навыков создания контента, так и визуального планирования. В данной работе мы решаем задачу автоматизированной генерации слайдов, где модели создают презентации на основе естественного языка (ЕЯ). Сначала мы представляем бенчмарк SlidesBench, первый бенчмарк для генерации слайдов с 7 тыс. обучающими и 585 тестовыми примерами, полученными из 310 коллекций слайдов по 10 областям. SlidesBench поддерживает оценку, которая (i) основана на референсах для измерения сходства с целевым слайдом, и (ii) без референсов для измерения качества дизайна сгенерированных слайдов самостоятельно. Мы проводим оценку методов генерации изображений и программ с использованием различных моделей и обнаруживаем, что программные методы создают слайды более высокого качества в форматах, с которыми пользователь может взаимодействовать. Основываясь на успехе генерации программ, мы создаем AutoPresent - модель на основе 8B Llama, обученную на 7 тыс. пар инструкций, сопоставленных с кодом для генерации слайдов, и достигаем результатов, сравнимых с закрытой моделью GPT-4o. Мы также исследуем итеративное улучшение дизайна, где модель обязана самостоятельно улучшать свой собственный вывод, и обнаруживаем, что этот процесс повышает качество слайда. Мы надеемся, что наша работа послужит основой для будущих исследований по созданию структурированных визуальных материалов.
English
Designing structured visuals such as presentation slides is essential for communicative needs, necessitating both content creation and visual planning skills. In this work, we tackle the challenge of automated slide generation, where models produce slide presentations from natural language (NL) instructions. We first introduce the SlidesBench benchmark, the first benchmark for slide generation with 7k training and 585 testing examples derived from 310 slide decks across 10 domains. SlidesBench supports evaluations that are (i)reference-based to measure similarity to a target slide, and (ii)reference-free to measure the design quality of generated slides alone. We benchmark end-to-end image generation and program generation methods with a variety of models, and find that programmatic methods produce higher-quality slides in user-interactable formats. Built on the success of program generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs of instructions paired with code for slide generation, and achieve results comparable to the closed-source model GPT-4o. We further explore iterative design refinement where the model is tasked to self-refine its own output, and we found that this process improves the slide's quality. We hope that our work will provide a basis for future work on generating structured visuals.
PDF82December 15, 2025