PresentBench: Een fijnmazige, rubricagebaseerde benchmark voor diapresentatiegeneratie

Samenvatting

Dia's vormen een cruciaal medium voor het overbrengen van informatie in presentatiegerichte scenario's zoals de academische wereld, het onderwijs en het bedrijfsleven. Ondanks hun belang blijft het creëren van hoogwaardige presentatiedecks tijdrovend en cognitief veeleisend. Recente vooruitgang in generatieve modellen, zoals Nano Banana Pro, heeft geautomatiseerde dia-generatie steeds haalbaarder gemaakt. Bestaande evaluaties van dia-generatie zijn echter vaak grofkorrelig en steunen op holistische beoordelingen, waardoor het moeilijk is om modelcapaciteiten accuraat in te schatten of zinvolle vooruitgang in het vakgebied te volgen. In de praktijk vormt het gebrek aan fijnmazige, verifieerbare evaluatiecriteria een kritieke bottleneck voor zowel onderzoek als praktische implementatie. In dit artikel stellen wij PresentBench voor, een fijnmazige, op rubrieken gebaseerde benchmark voor het evalueren van geautomatiseerde dia-generatie voor de praktijk. Deze bevat 238 evaluatie-instanties, elk aangevuld met de benodigde achtergrondmaterialen voor het maken van dia's. Bovendien hebben wij handmatig gemiddeld 54.1 checklistitems per instantie ontworpen, elk geformuleerd als een binaire vraag, om een fijnmazige, instancespecifieke evaluatie van de gegenereerde presentatiedecks mogelijk te maken. Uitgebreide experimenten tonen aan dat PresentBench betrouwbaardere evaluatieresultaten oplevert dan bestaande methoden en een significant sterkere afstemming vertoont met menselijke voorkeuren. Verder laat onze benchmark zien dat NotebookLM significant beter presteert dan andere methoden voor dia-generatie, wat een substantiële recente vooruitgang in dit domein benadrukt.

English

Slides serve as a critical medium for conveying information in presentation-oriented scenarios such as academia, education, and business. Despite their importance, creating high-quality slide decks remains time-consuming and cognitively demanding. Recent advances in generative models, such as Nano Banana Pro, have made automated slide generation increasingly feasible. However, existing evaluations of slide generation are often coarse-grained and rely on holistic judgments, making it difficult to accurately assess model capabilities or track meaningful advances in the field. In practice, the lack of fine-grained, verifiable evaluation criteria poses a critical bottleneck for both research and real-world deployment. In this paper, we propose PresentBench, a fine-grained, rubric-based benchmark for evaluating automated real-world slide generation. It contains 238 evaluation instances, each supplemented with background materials required for slide creation. Moreover, we manually design an average of 54.1 checklist items per instance, each formulated as a binary question, to enable fine-grained, instance-specific evaluation of the generated slide decks. Extensive experiments show that PresentBench provides more reliable evaluation results than existing methods, and exhibits significantly stronger alignment with human preferences. Furthermore, our benchmark reveals that NotebookLM significantly outperforms other slide generation methods, highlighting substantial recent progress in this domain.

PresentBench: Een fijnmazige, rubricagebaseerde benchmark voor diapresentatiegeneratie

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Samenvatting

Support