ChatPaper.aiChatPaper

PosterSum: Un Benchmark Multimodale per la Sintesi di Poster Scientifici

PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

February 24, 2025
Autori: Rohit Saxena, Pasquale Minervini, Frank Keller
cs.AI

Abstract

Generare riassunti testuali accurati e concisi da documenti multimodali è una sfida, specialmente quando si ha a che fare con contenuti visivamente complessi come i poster scientifici. Introduciamo PosterSum, un nuovo benchmark per promuovere lo sviluppo di modelli vision-language in grado di comprendere e riassumere poster scientifici in abstract di articoli di ricerca. Il nostro dataset contiene 16.305 poster di conferenze accoppiati ai rispettivi abstract come riassunti. Ogni poster è fornito in formato immagine e presenta diverse sfide di comprensione visiva, come layout complessi, regioni di testo dense, tabelle e figure. Abbiamo testato i più avanzati Multimodal Large Language Models (MLLMs) su PosterSum e dimostrato che faticano a interpretare e riassumere accuratamente i poster scientifici. Proponiamo Segment & Summarize, un metodo gerarchico che supera gli attuali MLLMs nelle metriche automatizzate, ottenendo un miglioramento del 3,14% in ROUGE-L. Questo servirà come punto di partenza per future ricerche sulla sintesi dei poster.
English
Generating accurate and concise textual summaries from multimodal documents is challenging, especially when dealing with visually complex content like scientific posters. We introduce PosterSum, a novel benchmark to advance the development of vision-language models that can understand and summarize scientific posters into research paper abstracts. Our dataset contains 16,305 conference posters paired with their corresponding abstracts as summaries. Each poster is provided in image format and presents diverse visual understanding challenges, such as complex layouts, dense text regions, tables, and figures. We benchmark state-of-the-art Multimodal Large Language Models (MLLMs) on PosterSum and demonstrate that they struggle to accurately interpret and summarize scientific posters. We propose Segment & Summarize, a hierarchical method that outperforms current MLLMs on automated metrics, achieving a 3.14% gain in ROUGE-L. This will serve as a starting point for future research on poster summarization.

Summary

AI-Generated Summary

PDF32February 27, 2025