Paper2Poster: Naar Multimodale Automatisering van Posters vanuit Wetenschappelijke Artikelen
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
May 27, 2025
Auteurs: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI
Samenvatting
Het genereren van academische posters is een cruciale maar uitdagende taak in wetenschappelijke communicatie, waarbij lange, verweven documenten moeten worden samengevat in één visueel coherente pagina. Om deze uitdaging aan te gaan, introduceren we de eerste benchmark en metrische suite voor postergeneratie, die recente conferentiepapers koppelt aan door auteurs ontworpen posters en de resultaten evalueert op (i) Visuele Kwaliteit - semantische afstemming met door mensen gemaakte posters, (ii) Tekstuele Samenhang - taalvloeiendheid, (iii) Holistische Beoordeling - zes verfijnde esthetische en informatieve criteria gescoord door een VLM-als-rechter, en opmerkelijk (iv) PaperQuiz - het vermogen van de poster om de kerninhoud van het paper over te brengen, gemeten aan de hand van VLMs die gegenereerde quizzen beantwoorden. Op basis van deze benchmark stellen we PosterAgent voor, een top-down, visueel-in-de-loop multi-agent pijplijn: de (a) Parser destilleert het paper in een gestructureerde assetbibliotheek; de (b) Planner brengt tekst-visuele paren in lijn met een binaire-boom lay-out die de leesvolgorde en ruimtelijke balans behoudt; en de (c) Painter-Commenter-lus verfijnt elk paneel door renderingscode uit te voeren en VLM-feedback te gebruiken om overloop te elimineren en afstemming te waarborgen. In onze uitgebreide evaluatie ontdekken we dat GPT-4o-uitvoer - hoewel op het eerste gezicht visueel aantrekkelijk - vaak rommelige tekst en slechte PaperQuiz-scores vertoont, en we constateren dat lezersbetrokkenheid de primaire esthetische bottleneck is, aangezien door mensen ontworpen posters grotendeels vertrouwen op visuele semantiek om betekenis over te brengen. Onze volledig open-source varianten (bijv. gebaseerd op de Qwen-2.5-serie) presteren beter dan bestaande 4o-gestuurde multi-agent systemen op bijna alle metrieken, terwijl ze 87% minder tokens gebruiken. Het transformeert een paper van 22 pagina's naar een afgeronde maar bewerkbare .pptx-poster - alles voor slechts $0,005. Deze bevindingen wijzen duidelijke richtingen aan voor de volgende generatie volledig geautomatiseerde postergeneratiemodellen. De code en datasets zijn beschikbaar op https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific
communication, requiring the compression of long-context interleaved documents
into a single, visually coherent page. To address this challenge, we introduce
the first benchmark and metric suite for poster generation, which pairs recent
conference papers with author-designed posters and evaluates outputs on
(i)Visual Quality-semantic alignment with human posters, (ii)Textual
Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic
and informational criteria scored by a VLM-as-judge, and notably
(iv)PaperQuiz-the poster's ability to convey core paper content as measured by
VLMs answering generated quizzes. Building on this benchmark, we propose
PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser
distills the paper into a structured asset library; the (b)Planner aligns
text-visual pairs into a binary-tree layout that preserves reading order and
spatial balance; and the (c)Painter-Commenter loop refines each panel by
executing rendering code and using VLM feedback to eliminate overflow and
ensure alignment. In our comprehensive evaluation, we find that GPT-4o
outputs-though visually appealing at first glance-often exhibit noisy text and
poor PaperQuiz scores, and we find that reader engagement is the primary
aesthetic bottleneck, as human-designed posters rely largely on visual
semantics to convey meaning. Our fully open-source variants (e.g. based on the
Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across
nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper
into a finalized yet editable .pptx poster - all for just $0.005. These
findings chart clear directions for the next generation of fully automated
poster-generation models. The code and datasets are available at
https://github.com/Paper2Poster/Paper2Poster.