PresentBench: Um Benchmark Baseado em Rubricas de Granulação Fina para Geração de Slides

Resumo

Os slides servem como um meio crítico para transmitir informações em cenários orientados para apresentações, como academia, educação e negócios. Apesar de sua importância, a criação de decks de slides de alta qualidade continua a ser uma tarefa demorada e cognitivamente exigente. Os recentes avanços em modelos generativos, como o Nano Banana Pro, tornaram a geração automatizada de slides cada vez mais viável. No entanto, as avaliações existentes sobre a geração de slides são frequentemente de granularidade grossa e baseiam-se em julgamentos holísticos, dificultando a avaliação precisa das capacidades dos modelos ou o acompanhamento de avanços significativos na área. Na prática, a falta de critérios de avaliação finamente granulares e verificáveis representa um gargalo crítico tanto para a pesquisa quanto para a implantação no mundo real. Neste artigo, propomos o PresentBench, um benchmark baseado em rubricas e de granularidade fina para avaliar a geração automatizada de slides do mundo real. Ele contém 238 instâncias de avaliação, cada uma complementada com materiais de apoio necessários para a criação dos slides. Além disso, projetamos manualmente uma média de 54,1 itens de lista de verificação por instância, cada um formulado como uma pergunta binária, para permitir uma avaliação fina e específica da instância dos decks de slides gerados. Experimentos extensivos mostram que o PresentBench fornece resultados de avaliação mais confiáveis do que os métodos existentes e exibe um alinhamento significativamente mais forte com as preferências humanas. Além disso, nosso benchmark revela que o NotebookLM supera significativamente outros métodos de geração de slides, destacando um progresso substancial recente neste domínio.

English

Slides serve as a critical medium for conveying information in presentation-oriented scenarios such as academia, education, and business. Despite their importance, creating high-quality slide decks remains time-consuming and cognitively demanding. Recent advances in generative models, such as Nano Banana Pro, have made automated slide generation increasingly feasible. However, existing evaluations of slide generation are often coarse-grained and rely on holistic judgments, making it difficult to accurately assess model capabilities or track meaningful advances in the field. In practice, the lack of fine-grained, verifiable evaluation criteria poses a critical bottleneck for both research and real-world deployment. In this paper, we propose PresentBench, a fine-grained, rubric-based benchmark for evaluating automated real-world slide generation. It contains 238 evaluation instances, each supplemented with background materials required for slide creation. Moreover, we manually design an average of 54.1 checklist items per instance, each formulated as a binary question, to enable fine-grained, instance-specific evaluation of the generated slide decks. Extensive experiments show that PresentBench provides more reliable evaluation results than existing methods, and exhibits significantly stronger alignment with human preferences. Furthermore, our benchmark reveals that NotebookLM significantly outperforms other slide generation methods, highlighting substantial recent progress in this domain.

PresentBench: Um Benchmark Baseado em Rubricas de Granulação Fina para Geração de Slides

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Resumo

Support