PresentBench: Ein feingranulares, rubrikbasiertes Benchmark für die Folien-Generierung

Zusammenfassung

Folien sind ein entscheidendes Medium zur Informationsvermittlung in präsentationsorientierten Kontexten wie Wissenschaft, Bildung und Wirtschaft. Trotz ihrer Bedeutung ist die Erstellung hochwertiger Folien nach wie vor zeitaufwendig und kognitiv anspruchsvoll. Jüngste Fortschritte bei generativen Modellen, wie z.B. Nano Banana Pro, machen die automatisierte Folien-Erzeugung zunehmend praktikabel. Bisherige Evaluierungen der Folien-Generierung sind jedoch oft grobmaschig und stützen sich auf holistische Bewertungen, was eine genaue Einschätzung der Modellfähigkeiten oder die Nachverfolgung bedeutender Fortschritte auf diesem Gebiet erschwert. In der Praxis stellt das Fehlen feingranularer, überprüfbarer Bewertungskriterien einen kritischen Engpass für Forschung und praktischen Einsatz dar. In diesem Beitrag stellen wir PresentBench vor, einen feingranularen, kriterienbasierten Benchmark zur Evaluierung automatischer Folien-Generierung für reale Anwendungsszenarien. Er umfasst 238 Evaluierungsinstanzen, die jeweils mit den für die Folien-Erstellung notwendigen Hintergrundmaterialien ergänzt werden. Darüber hinaus haben wir manuell durchschnittlich 54,1 Checklisten-Punkte pro Instanz entworfen, die jeweils als binäre Frage formuliert sind, um eine feingranulare, instanzspezifische Bewertung der generierten Folien zu ermöglichen. Umfangreiche Experimente zeigen, dass PresentBench zuverlässigere Evaluierungsergebnisse liefert als bestehende Methoden und eine signifikant stärkere Übereinstimmung mit menschlichen Präferenzen aufweist. Darüber hinaus macht unser Benchmark deutlich, dass NotebookLM andere Methoden zur Folien-Generierung deutlich übertrifft, was den erheblichen Fortschritt in diesem Bereich unterstreicht.

English

Slides serve as a critical medium for conveying information in presentation-oriented scenarios such as academia, education, and business. Despite their importance, creating high-quality slide decks remains time-consuming and cognitively demanding. Recent advances in generative models, such as Nano Banana Pro, have made automated slide generation increasingly feasible. However, existing evaluations of slide generation are often coarse-grained and rely on holistic judgments, making it difficult to accurately assess model capabilities or track meaningful advances in the field. In practice, the lack of fine-grained, verifiable evaluation criteria poses a critical bottleneck for both research and real-world deployment. In this paper, we propose PresentBench, a fine-grained, rubric-based benchmark for evaluating automated real-world slide generation. It contains 238 evaluation instances, each supplemented with background materials required for slide creation. Moreover, we manually design an average of 54.1 checklist items per instance, each formulated as a binary question, to enable fine-grained, instance-specific evaluation of the generated slide decks. Extensive experiments show that PresentBench provides more reliable evaluation results than existing methods, and exhibits significantly stronger alignment with human preferences. Furthermore, our benchmark reveals that NotebookLM significantly outperforms other slide generation methods, highlighting substantial recent progress in this domain.

PresentBench: Ein feingranulares, rubrikbasiertes Benchmark für die Folien-Generierung

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Zusammenfassung

Support