PresentBench: Детализированный эталонный тест для генерации презентаций на основе рубрик

Аннотация

Слайды служат ключевым средством передачи информации в презентационных сценариях, таких как академическая среда, образование и бизнес. Несмотря на их важность, создание качественных наборов слайдов остается трудоемким и когнитивно сложным процессом. Последние достижения в области генеративных моделей, такие как Nano Banana Pro, сделали автоматизированное создание слайдов все более осуществимым. Однако существующие оценки генерации слайдов часто являются крупнозернистыми и опираются на целостные суждения, что затрудняет точную оценку возможностей моделей или отслеживание значительных успехов в данной области. На практике отсутствие детализированных, проверяемых критериев оценки создает серьезное препятствие как для исследований, так и для практического внедрения. В данной статье мы предлагаем PresentBench — детализированный бенчмарк на основе рубрик для оценки автоматизированного создания слайдов в реальных условиях. Он содержит 238 примеров для оценки, каждый из которых дополнен исходными материалами, необходимыми для создания слайдов. Кроме того, мы вручную разработали в среднем 54.1 пункта контрольного списка для каждого примера, сформулированных в виде бинарных вопросов, чтобы обеспечить детализированную, специфичную для каждого случая оценку генерируемых наборов слайдов. Масштабные эксперименты показывают, что PresentBench обеспечивает более надежные результаты оценки по сравнению с существующими методами и демонстрирует значительно более сильное соответствие человеческим предпочтениям. Более того, наш бенчмарк выявляет, что NotebookLM значительно превосходит другие методы генерации слайдов, подчеркивая существенный прогресс в этой области.

English

Slides serve as a critical medium for conveying information in presentation-oriented scenarios such as academia, education, and business. Despite their importance, creating high-quality slide decks remains time-consuming and cognitively demanding. Recent advances in generative models, such as Nano Banana Pro, have made automated slide generation increasingly feasible. However, existing evaluations of slide generation are often coarse-grained and rely on holistic judgments, making it difficult to accurately assess model capabilities or track meaningful advances in the field. In practice, the lack of fine-grained, verifiable evaluation criteria poses a critical bottleneck for both research and real-world deployment. In this paper, we propose PresentBench, a fine-grained, rubric-based benchmark for evaluating automated real-world slide generation. It contains 238 evaluation instances, each supplemented with background materials required for slide creation. Moreover, we manually design an average of 54.1 checklist items per instance, each formulated as a binary question, to enable fine-grained, instance-specific evaluation of the generated slide decks. Extensive experiments show that PresentBench provides more reliable evaluation results than existing methods, and exhibits significantly stronger alignment with human preferences. Furthermore, our benchmark reveals that NotebookLM significantly outperforms other slide generation methods, highlighting substantial recent progress in this domain.

PresentBench: Детализированный эталонный тест для генерации презентаций на основе рубрик

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Аннотация

Support