ChatPaper.aiChatPaper

PosterSum : Un Benchmark Multimodal pour la Synthèse de Posters Scientifiques

PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

February 24, 2025
Auteurs: Rohit Saxena, Pasquale Minervini, Frank Keller
cs.AI

Résumé

La génération de résumés textuels précis et concis à partir de documents multimodaux est un défi, en particulier lorsqu'il s'agit de contenus visuellement complexes comme les posters scientifiques. Nous présentons PosterSum, un nouveau benchmark visant à faire progresser le développement de modèles vision-langage capables de comprendre et de résumer des posters scientifiques en résumés d'articles de recherche. Notre ensemble de données contient 16 305 posters de conférences associés à leurs résumés correspondants. Chaque poster est fourni au format image et présente divers défis de compréhension visuelle, tels que des mises en page complexes, des zones de texte denses, des tableaux et des figures. Nous évaluons les modèles de langage multimodaux de pointe (MLLMs) sur PosterSum et montrons qu'ils peinent à interpréter et à résumer avec précision les posters scientifiques. Nous proposons Segment & Summarize, une méthode hiérarchique qui surpasse les MLLMs actuels sur les métriques automatisées, avec un gain de 3,14 % en ROUGE-L. Cela servira de point de départ pour les recherches futures sur la synthèse de posters.
English
Generating accurate and concise textual summaries from multimodal documents is challenging, especially when dealing with visually complex content like scientific posters. We introduce PosterSum, a novel benchmark to advance the development of vision-language models that can understand and summarize scientific posters into research paper abstracts. Our dataset contains 16,305 conference posters paired with their corresponding abstracts as summaries. Each poster is provided in image format and presents diverse visual understanding challenges, such as complex layouts, dense text regions, tables, and figures. We benchmark state-of-the-art Multimodal Large Language Models (MLLMs) on PosterSum and demonstrate that they struggle to accurately interpret and summarize scientific posters. We propose Segment & Summarize, a hierarchical method that outperforms current MLLMs on automated metrics, achieving a 3.14% gain in ROUGE-L. This will serve as a starting point for future research on poster summarization.

Summary

AI-Generated Summary

PDF32February 27, 2025