ChatPaper.aiChatPaper

PosterSum: Ein multimodaler Benchmark für die Zusammenfassung wissenschaftlicher Poster

PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

February 24, 2025
Autoren: Rohit Saxena, Pasquale Minervini, Frank Keller
cs.AI

Zusammenfassung

Das Generieren präziser und prägnanter Textzusammenfassungen aus multimodalen Dokumenten ist eine Herausforderung, insbesondere bei visuell komplexen Inhalten wie wissenschaftlichen Postern. Wir stellen PosterSum vor, einen neuartigen Benchmark, um die Entwicklung von Vision-Sprache-Modellen voranzutreiben, die wissenschaftliche Poster verstehen und in Forschungszusammenfassungen (Abstracts) überführen können. Unser Datensatz umfasst 16.305 Konferenzposter, die jeweils mit ihren entsprechenden Abstracts als Zusammenfassungen gepaart sind. Jedes Poster wird im Bildformat bereitgestellt und bietet diverse Herausforderungen für das visuelle Verständnis, wie komplexe Layouts, dichte Textbereiche, Tabellen und Abbildungen. Wir evaluieren state-of-the-art Multimodale Große Sprachmodelle (MLLMs) anhand von PosterSum und zeigen, dass diese Schwierigkeiten haben, wissenschaftliche Poster korrekt zu interpretieren und zusammenzufassen. Wir schlagen Segment & Summarize vor, eine hierarchische Methode, die aktuelle MLLMs bei automatisierten Metriken übertrifft und eine Verbesserung von 3,14 % in ROUGE-L erzielt. Dies wird als Ausgangspunkt für zukünftige Forschung zur Postersummarisierung dienen.
English
Generating accurate and concise textual summaries from multimodal documents is challenging, especially when dealing with visually complex content like scientific posters. We introduce PosterSum, a novel benchmark to advance the development of vision-language models that can understand and summarize scientific posters into research paper abstracts. Our dataset contains 16,305 conference posters paired with their corresponding abstracts as summaries. Each poster is provided in image format and presents diverse visual understanding challenges, such as complex layouts, dense text regions, tables, and figures. We benchmark state-of-the-art Multimodal Large Language Models (MLLMs) on PosterSum and demonstrate that they struggle to accurately interpret and summarize scientific posters. We propose Segment & Summarize, a hierarchical method that outperforms current MLLMs on automated metrics, achieving a 3.14% gain in ROUGE-L. This will serve as a starting point for future research on poster summarization.

Summary

AI-Generated Summary

PDF32February 27, 2025