PosterSum: Um Benchmark Multimodal para Sumarização de Pôsteres Científicos
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization
February 24, 2025
Autores: Rohit Saxena, Pasquale Minervini, Frank Keller
cs.AI
Resumo
Gerar resumos textuais precisos e concisos a partir de documentos multimodais é desafiador, especialmente ao lidar com conteúdo visualmente complexo como pôsteres científicos. Apresentamos o PosterSum, um novo benchmark para avançar no desenvolvimento de modelos visão-linguagem que possam compreender e resumir pôsteres científicos em resumos de artigos de pesquisa. Nosso conjunto de dados contém 16.305 pôsteres de conferências pareados com seus resumos correspondentes. Cada pôster é fornecido em formato de imagem e apresenta desafios diversos de compreensão visual, como layouts complexos, regiões de texto densas, tabelas e figuras. Avaliamos os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) de última geração no PosterSum e demonstramos que eles têm dificuldade em interpretar e resumir com precisão pôsteres científicos. Propomos Segmentar e Resumir, um método hierárquico que supera os MLLMs atuais em métricas automatizadas, alcançando um aumento de 3,14% no ROUGE-L. Isso servirá como ponto de partida para pesquisas futuras sobre sumarização de pôsteres.
English
Generating accurate and concise textual summaries from multimodal documents
is challenging, especially when dealing with visually complex content like
scientific posters. We introduce PosterSum, a novel benchmark to advance the
development of vision-language models that can understand and summarize
scientific posters into research paper abstracts. Our dataset contains 16,305
conference posters paired with their corresponding abstracts as summaries. Each
poster is provided in image format and presents diverse visual understanding
challenges, such as complex layouts, dense text regions, tables, and figures.
We benchmark state-of-the-art Multimodal Large Language Models (MLLMs) on
PosterSum and demonstrate that they struggle to accurately interpret and
summarize scientific posters. We propose Segment & Summarize, a hierarchical
method that outperforms current MLLMs on automated metrics, achieving a 3.14%
gain in ROUGE-L. This will serve as a starting point for future research on
poster summarization.Summary
AI-Generated Summary