PosterSum: Een Multimodale Benchmark voor Wetenschappelijke Postersamenvatting
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization
February 24, 2025
Auteurs: Rohit Saxena, Pasquale Minervini, Frank Keller
cs.AI
Samenvatting
Het genereren van nauwkeurige en beknopte tekstuele samenvattingen uit multimodale documenten is een uitdaging, vooral bij visueel complexe inhoud zoals wetenschappelijke posters. Wij introduceren PosterSum, een nieuwe benchmark om de ontwikkeling van visie-taalmodellen te bevorderen die wetenschappelijke posters kunnen begrijpen en samenvatten in onderzoekspaperabstracts. Onze dataset bevat 16.305 conferentieposters, gekoppeld aan hun bijbehorende abstracten als samenvattingen. Elke poster wordt in beeldformaat aangeboden en presenteert diverse visuele begripsuitdagingen, zoals complexe lay-outs, dichte tekstregio's, tabellen en figuren. We testen state-of-the-art Multimodale Grote Taalmodellen (MLLMs) op PosterSum en tonen aan dat ze moeite hebben om wetenschappelijke posters nauwkeurig te interpreteren en samen te vatten. We stellen Segment & Summarize voor, een hiërarchische methode die huidige MLLMs overtreft op geautomatiseerde metrieken, met een winst van 3,14% in ROUGE-L. Dit zal dienen als startpunt voor toekomstig onderzoek naar postersamenvatting.
English
Generating accurate and concise textual summaries from multimodal documents
is challenging, especially when dealing with visually complex content like
scientific posters. We introduce PosterSum, a novel benchmark to advance the
development of vision-language models that can understand and summarize
scientific posters into research paper abstracts. Our dataset contains 16,305
conference posters paired with their corresponding abstracts as summaries. Each
poster is provided in image format and presents diverse visual understanding
challenges, such as complex layouts, dense text regions, tables, and figures.
We benchmark state-of-the-art Multimodal Large Language Models (MLLMs) on
PosterSum and demonstrate that they struggle to accurately interpret and
summarize scientific posters. We propose Segment & Summarize, a hierarchical
method that outperforms current MLLMs on automated metrics, achieving a 3.14%
gain in ROUGE-L. This will serve as a starting point for future research on
poster summarization.