AutoPresent: 처음부터 구조화된 시각물 설계
AutoPresent: Designing Structured Visuals from Scratch
January 1, 2025
저자: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI
초록
의사 소통 요구에 있어서 프레젠테이션 슬라이드와 같은 구조화된 시각 자료를 디자인하는 것은 콘텐츠 작성과 시각적 계획 능력이 필수적입니다. 본 연구에서는 자연어 (NL) 지침에서 슬라이드 프레젠테이션을 생성하는 자동화된 슬라이드 생성 과제를 다룹니다. 먼저, 10개 도메인에서 파생된 310개 슬라이드 덱으로부터 7천 개의 훈련 및 585개의 테스트 예제로 이루어진 최초의 슬라이드 생성 벤치마크인 SlidesBench 벤치마크를 소개합니다. SlidesBench는 (i) 대상 슬라이드와의 유사성을 측정하기 위한 참조 기반 평가 및 (ii) 생성된 슬라이드의 디자인 품질을 측정하기 위한 참조 없는 평가를 지원합니다. 다양한 모델을 사용하여 엔드 투 엔드 이미지 생성 및 프로그램 생성 방법을 벤치마킹하고, 프로그래밍 방법이 사용자 상호 작용 가능한 형식의 더 높은 품질의 슬라이드를 생성한다는 결과를 얻었습니다. 프로그램 생성의 성공을 기반으로, 슬라이드 생성을 위한 7천 개의 지시문과 코드로 구성된 쌍으로 훈련된 8B Llama 기반 모델인 AutoPresent를 생성하고, GPT-4o라는 폐쇄 소스 모델과 유사한 결과를 달성했습니다. 모델이 자체 출력을 자가 세밀화하는 작업을 수행하도록 하는 반복적 디자인 세련화를 더 탐구하였고, 이 과정이 슬라이드의 품질을 향상시키는 것을 발견했습니다. 우리의 연구가 구조화된 시각 자료 생성에 대한 미래 연구의 기초를 제공할 것을 희망합니다.
English
Designing structured visuals such as presentation slides is essential for
communicative needs, necessitating both content creation and visual planning
skills. In this work, we tackle the challenge of automated slide generation,
where models produce slide presentations from natural language (NL)
instructions. We first introduce the SlidesBench benchmark, the first benchmark
for slide generation with 7k training and 585 testing examples derived from 310
slide decks across 10 domains. SlidesBench supports evaluations that are
(i)reference-based to measure similarity to a target slide, and
(ii)reference-free to measure the design quality of generated slides alone. We
benchmark end-to-end image generation and program generation methods with a
variety of models, and find that programmatic methods produce higher-quality
slides in user-interactable formats. Built on the success of program
generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs
of instructions paired with code for slide generation, and achieve results
comparable to the closed-source model GPT-4o. We further explore iterative
design refinement where the model is tasked to self-refine its own output, and
we found that this process improves the slide's quality. We hope that our work
will provide a basis for future work on generating structured visuals.