PosterSum: Un punto de referencia multimodal para la resumización de pósteres científicos
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization
February 24, 2025
Autores: Rohit Saxena, Pasquale Minervini, Frank Keller
cs.AI
Resumen
Generar resúmenes textuales precisos y concisos a partir de documentos multimodales es un desafío, especialmente cuando se trata de contenido visualmente complejo como pósteres científicos. Presentamos PosterSum, un nuevo punto de referencia para avanzar en el desarrollo de modelos de visión y lenguaje capaces de comprender y resumir pósteres científicos en resúmenes de artículos de investigación. Nuestro conjunto de datos contiene 16.305 pósteres de conferencias emparejados con sus resúmenes correspondientes. Cada póster se proporciona en formato de imagen y presenta diversos desafíos de comprensión visual, como diseños complejos, regiones de texto densas, tablas y figuras. Evaluamos modelos de lenguaje multimodal de última generación (MLLMs) en PosterSum y demostramos que tienen dificultades para interpretar y resumir con precisión los pósteres científicos. Proponemos Segment & Summarize, un método jerárquico que supera a los MLLMs actuales en métricas automatizadas, logrando una mejora del 3.14% en ROUGE-L. Esto servirá como punto de partida para futuras investigaciones sobre la resumización de pósteres.
English
Generating accurate and concise textual summaries from multimodal documents
is challenging, especially when dealing with visually complex content like
scientific posters. We introduce PosterSum, a novel benchmark to advance the
development of vision-language models that can understand and summarize
scientific posters into research paper abstracts. Our dataset contains 16,305
conference posters paired with their corresponding abstracts as summaries. Each
poster is provided in image format and presents diverse visual understanding
challenges, such as complex layouts, dense text regions, tables, and figures.
We benchmark state-of-the-art Multimodal Large Language Models (MLLMs) on
PosterSum and demonstrate that they struggle to accurately interpret and
summarize scientific posters. We propose Segment & Summarize, a hierarchical
method that outperforms current MLLMs on automated metrics, achieving a 3.14%
gain in ROUGE-L. This will serve as a starting point for future research on
poster summarization.Summary
AI-Generated Summary