PresentBench: Un Benchmark Basato su Griglie di Valutazione Granulari per la Generazione di Presentazioni

Abstract

Le slide costituiscono un mezzo fondamentale per veicolare informazioni in contesti orientati alla presentazione, come l'ambito accademico, l'istruzione e il mondo degli affari. Nonostante la loro importanza, la creazione di presentazioni di alta qualità rimane un'attività che richiede tempo e un notevole impegno cognitivo. I recenti progressi nei modelli generativi, come Nano Banana Pro, hanno reso la generazione automatica di slide sempre più fattibile. Tuttavia, le valutazioni esistenti per la generazione di slide sono spesso grossolane e si basano su giudizi olistici, rendendo difficile valutare con precisione le capacità dei modelli o monitorare progressi significativi in questo campo. Nella pratica, la mancanza di criteri di valutazione granulari e verificabili rappresenta un collo di bottiglia critico sia per la ricerca che per l'implementazione nel mondo reale. In questo articolo, proponiamo PresentBench, un benchmark granulare e basato su rubriche per valutare la generazione automatica di slide in scenari reali. Esso contiene 238 istanze di valutazione, ciascuna corredata dai materiali di background necessari per la creazione delle slide. Inoltre, abbiamo progettato manualmente una media di 54,1 elementi di controllo per istanza, ciascuno formulato come domanda binaria, per consentire una valutazione granulare e specifica per ogni istanza delle presentazioni generate. Esperimenti estensivi dimostrano che PresentBench fornisce risultati di valutazione più affidabili rispetto ai metodi esistenti e mostra un allineamento significativamente più forte con le preferenze umane. Inoltre, il nostro benchmark rivela che NotebookLM supera significativamente altri metodi di generazione di slide, evidenziando sostanziali progressi recenti in questo dominio.

English

Slides serve as a critical medium for conveying information in presentation-oriented scenarios such as academia, education, and business. Despite their importance, creating high-quality slide decks remains time-consuming and cognitively demanding. Recent advances in generative models, such as Nano Banana Pro, have made automated slide generation increasingly feasible. However, existing evaluations of slide generation are often coarse-grained and rely on holistic judgments, making it difficult to accurately assess model capabilities or track meaningful advances in the field. In practice, the lack of fine-grained, verifiable evaluation criteria poses a critical bottleneck for both research and real-world deployment. In this paper, we propose PresentBench, a fine-grained, rubric-based benchmark for evaluating automated real-world slide generation. It contains 238 evaluation instances, each supplemented with background materials required for slide creation. Moreover, we manually design an average of 54.1 checklist items per instance, each formulated as a binary question, to enable fine-grained, instance-specific evaluation of the generated slide decks. Extensive experiments show that PresentBench provides more reliable evaluation results than existing methods, and exhibits significantly stronger alignment with human preferences. Furthermore, our benchmark reveals that NotebookLM significantly outperforms other slide generation methods, highlighting substantial recent progress in this domain.

PresentBench: Un Benchmark Basato su Griglie di Valutazione Granulari per la Generazione di Presentazioni

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Abstract

Support