PresentBench : Un benchmark basé sur une grille d'évaluation fine pour la génération de diapositives

Résumé

Les diapositives constituent un support essentiel pour la transmission d'informations dans des contextes orientés présentation, tels que le milieu universitaire, l'éducation et les affaires. Malgré leur importance, la création de présentations de diapositives de haute qualité reste une tâche chronophage et exigeante sur le plan cognitif. Les récents progrès des modèles génératifs, tels que Nano Banana Pro, ont rendu la génération automatisée de diapositives de plus en plus réalisable. Cependant, les évaluations existantes de la génération de diapositives sont souvent trop générales et s'appuient sur des jugements holistiques, ce qui rend difficile l'évaluation précise des capacités des modèles ou le suivi des progrès significatifs dans ce domaine. En pratique, l'absence de critères d'évaluation fins et vérifiables constitue un goulot d'étranglement critique tant pour la recherche que pour le déploiement en conditions réelles. Dans cet article, nous proposons PresentBench, un benchmark basé sur une grille d'évaluation détaillée pour évaluer la génération automatisée de diapositives en situation réelle. Il contient 238 instances d'évaluation, chacune complétée par les documents de contexte nécessaires à la création des diapositives. De plus, nous concevons manuellement en moyenne 54,1 éléments de checklist par instance, chacun formulé comme une question binaire, afin de permettre une évaluation fine et spécifique à chaque instance des présentations générées. Des expériences approfondies montrent que PresentBench fournit des résultats d'évaluation plus fiables que les méthodes existantes et présente un alignement significativement plus fort avec les préférences humaines. Par ailleurs, notre benchmark révèle que NotebookLM surpasse significativement les autres méthodes de génération de diapositives, mettant en lumière les progrès substantiels récents dans ce domaine.

English

Slides serve as a critical medium for conveying information in presentation-oriented scenarios such as academia, education, and business. Despite their importance, creating high-quality slide decks remains time-consuming and cognitively demanding. Recent advances in generative models, such as Nano Banana Pro, have made automated slide generation increasingly feasible. However, existing evaluations of slide generation are often coarse-grained and rely on holistic judgments, making it difficult to accurately assess model capabilities or track meaningful advances in the field. In practice, the lack of fine-grained, verifiable evaluation criteria poses a critical bottleneck for both research and real-world deployment. In this paper, we propose PresentBench, a fine-grained, rubric-based benchmark for evaluating automated real-world slide generation. It contains 238 evaluation instances, each supplemented with background materials required for slide creation. Moreover, we manually design an average of 54.1 checklist items per instance, each formulated as a binary question, to enable fine-grained, instance-specific evaluation of the generated slide decks. Extensive experiments show that PresentBench provides more reliable evaluation results than existing methods, and exhibits significantly stronger alignment with human preferences. Furthermore, our benchmark reveals that NotebookLM significantly outperforms other slide generation methods, highlighting substantial recent progress in this domain.

PresentBench : Un benchmark basé sur une grille d'évaluation fine pour la génération de diapositives

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Résumé

Support