ChatPaper.aiChatPaper

AutoPresent: ゼロから構造化されたビジュアルをデザインする

AutoPresent: Designing Structured Visuals from Scratch

January 1, 2025
著者: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell
cs.AI

要旨

コミュニケーションのニーズには、プレゼンテーションスライドなどの構造化されたビジュアルデザインが不可欠であり、コンテンツ作成とビジュアルプランニングのスキルが必要とされます。本研究では、自然言語(NL)の指示からスライドプレゼンテーションを生成する自動化スライド生成の課題に取り組みます。まず、SlidesBenchベンチマークを紹介し、これは10のドメインから派生した310のスライドデッキから7,000のトレーニング例と585のテスト例を持つ、スライド生成のための初のベンチマークです。SlidesBenchは、(i)ターゲットスライドとの類似性を測定するためのリファレンスベースの評価、および(ii)生成されたスライドのデザイン品質を単独で測定するためのリファレンスフリーな評価をサポートしています。我々は、様々なモデルを用いてエンドツーエンドの画像生成とプログラム生成方法をベンチマークし、プログラム的な方法がユーザーが操作可能な形式でより高品質なスライドを生成することを発見しました。プログラム生成の成功を受けて、スライド生成のために7,000の指示とコードがペアになった8B LlamaベースのAutoPresentモデルを作成し、GPT-4oというクローズドソースモデルと比較可能な結果を達成しました。さらに、モデルに自身の出力を自己改善させるように課題を与える反復的なデザイン改善を探求し、このプロセスがスライドの品質を向上させることを見出しました。私たちの研究が構造化されたビジュアルを生成するための将来の研究の基盤となることを期待しています。
English
Designing structured visuals such as presentation slides is essential for communicative needs, necessitating both content creation and visual planning skills. In this work, we tackle the challenge of automated slide generation, where models produce slide presentations from natural language (NL) instructions. We first introduce the SlidesBench benchmark, the first benchmark for slide generation with 7k training and 585 testing examples derived from 310 slide decks across 10 domains. SlidesBench supports evaluations that are (i)reference-based to measure similarity to a target slide, and (ii)reference-free to measure the design quality of generated slides alone. We benchmark end-to-end image generation and program generation methods with a variety of models, and find that programmatic methods produce higher-quality slides in user-interactable formats. Built on the success of program generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs of instructions paired with code for slide generation, and achieve results comparable to the closed-source model GPT-4o. We further explore iterative design refinement where the model is tasked to self-refine its own output, and we found that this process improves the slide's quality. We hope that our work will provide a basis for future work on generating structured visuals.
PDF82December 15, 2025