PresentBench: Un Benchmark Basado en Rúbricas de Granularidad Fina para la Generación de Diapositivas

Resumen

Las diapositivas constituyen un medio fundamental para transmitir información en escenarios orientados a la presentación, como el ámbito académico, la educación y los negocios. A pesar de su importancia, la creación de presentaciones de diapositivas de alta calidad sigue siendo una tarea que consume tiempo y requiere un esfuerzo cognitivo considerable. Los recientes avances en modelos generativos, como Nano Banana Pro, han hecho que la generación automatizada de diapositivas sea cada vez más factible. Sin embargo, las evaluaciones existentes sobre la generación de diapositivas suelen ser de grano grueso y se basan en juicios holísticos, lo que dificulta la evaluación precisa de las capacidades del modelo o el seguimiento de avances significativos en el campo. En la práctica, la falta de criterios de evaluación verificables y de grano fino supone un cuello de botella crítico tanto para la investigación como para la implementación en el mundo real. En este artículo, proponemos PresentBench, un benchmark basado en rúbricas y de grano fino para evaluar la generación automatizada de diapositivas en entornos reales. Este contiene 238 instancias de evaluación, cada una complementada con los materiales de fondo necesarios para la creación de las diapositivas. Además, diseñamos manualmente un promedio de 54.1 ítems de lista de verificación por instancia, cada uno formulado como una pregunta binaria, para permitir una evaluación específica por instancia y de grano fino de las presentaciones de diapositivas generadas. Experimentos exhaustivos demuestran que PresentBench proporciona resultados de evaluación más fiables que los métodos existentes y exhibe una alineación significativamente más fuerte con las preferencias humanas. Asimismo, nuestro benchmark revela que NotebookLM supera significativamente a otros métodos de generación de diapositivas, lo que pone de relieve los sustanciales progresos recientes en este dominio.

English

Slides serve as a critical medium for conveying information in presentation-oriented scenarios such as academia, education, and business. Despite their importance, creating high-quality slide decks remains time-consuming and cognitively demanding. Recent advances in generative models, such as Nano Banana Pro, have made automated slide generation increasingly feasible. However, existing evaluations of slide generation are often coarse-grained and rely on holistic judgments, making it difficult to accurately assess model capabilities or track meaningful advances in the field. In practice, the lack of fine-grained, verifiable evaluation criteria poses a critical bottleneck for both research and real-world deployment. In this paper, we propose PresentBench, a fine-grained, rubric-based benchmark for evaluating automated real-world slide generation. It contains 238 evaluation instances, each supplemented with background materials required for slide creation. Moreover, we manually design an average of 54.1 checklist items per instance, each formulated as a binary question, to enable fine-grained, instance-specific evaluation of the generated slide decks. Extensive experiments show that PresentBench provides more reliable evaluation results than existing methods, and exhibits significantly stronger alignment with human preferences. Furthermore, our benchmark reveals that NotebookLM significantly outperforms other slide generation methods, highlighting substantial recent progress in this domain.

PresentBench: Un Benchmark Basado en Rúbricas de Granularidad Fina para la Generación de Diapositivas

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Resumen

Support