PresentBench: 슬라이드 생성을 위한 세분화된 루브릭 기반 벤치마크
PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation
March 7, 2026
저자: Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo
cs.AI
초록
슬라이드는 학계, 교육, 비즈니스와 같은 발표 중심 시나리오에서 정보를 전달하는 중요한 매체 역할을 합니다. 그 중요성에도 불구하고, 고품질 슬라이드 데크를 제작하는 작업은 여전히 시간이 많이 소요되고 인지적 부담이 큽니다. Nano Banana Pro와 같은 생성 모델의 최근 발전으로 자동 슬라이드 생성이 점점 더 실현 가능해지고 있습니다. 그러나 기존의 슬라이드 생성 평가는 대체로 거시적이며 전체론적 판단에 의존하기 때문에, 모델 능력을 정확히 평가하거나 해당 분야의 의미 있는 발전을 추적하기가 어렵습니다. 실제로 세분화되고 검증 가능한 평가 기준의 부족은 연구와 실제 배포 양측에 걸친 중요한 병목 현상으로 작용합니다. 본 논문에서는 실제 환경의 자동 슬라이드 생성을 평가하기 위한 세분화된 루브릭 기반 벤치마크인 PresentBench를 제안합니다. 여기에는 238개의 평가 인스턴스가 포함되어 있으며, 각 인스턴스는 슬라이드 제작에 필요한 배경 자료로 보완됩니다. 더 나아가 생성된 슬라이드 데크에 대한 세분화되고 인스턴스별 평가를 가능하게 하기 위해, 각 인스턴스당 평균 54.1개의 체크리스트 항목(각각 이진 질문 형태)을 수작업으로 설계했습니다. 광범위한 실험을 통해 PresentBench가 기존 방법보다 더 신뢰할 수 있는 평가 결과를 제공하며 인간의 선호도와 훨씬 더 강한 일치성을 보임을 확인했습니다. 또한, 본 벤치마크를 통해 NotebookLM이 다른 슬라이드 생성 방법들을 크게 앞지르는 것으로 나타나, 이 분야의 최근 상당한 진전을 부각시킵니다.
English
Slides serve as a critical medium for conveying information in presentation-oriented scenarios such as academia, education, and business. Despite their importance, creating high-quality slide decks remains time-consuming and cognitively demanding. Recent advances in generative models, such as Nano Banana Pro, have made automated slide generation increasingly feasible. However, existing evaluations of slide generation are often coarse-grained and rely on holistic judgments, making it difficult to accurately assess model capabilities or track meaningful advances in the field. In practice, the lack of fine-grained, verifiable evaluation criteria poses a critical bottleneck for both research and real-world deployment. In this paper, we propose PresentBench, a fine-grained, rubric-based benchmark for evaluating automated real-world slide generation. It contains 238 evaluation instances, each supplemented with background materials required for slide creation. Moreover, we manually design an average of 54.1 checklist items per instance, each formulated as a binary question, to enable fine-grained, instance-specific evaluation of the generated slide decks. Extensive experiments show that PresentBench provides more reliable evaluation results than existing methods, and exhibits significantly stronger alignment with human preferences. Furthermore, our benchmark reveals that NotebookLM significantly outperforms other slide generation methods, highlighting substantial recent progress in this domain.