ChatPaper.aiChatPaper

Paper2Poster: Naar Multimodale Automatisering van Posters vanuit Wetenschappelijke Artikelen

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

May 27, 2025
Auteurs: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI

Samenvatting

Het genereren van academische posters is een cruciale maar uitdagende taak in wetenschappelijke communicatie, waarbij lange, verweven documenten moeten worden samengevat in één visueel coherente pagina. Om deze uitdaging aan te gaan, introduceren we de eerste benchmark en metrische suite voor postergeneratie, die recente conferentiepapers koppelt aan door auteurs ontworpen posters en de resultaten evalueert op (i) Visuele Kwaliteit - semantische afstemming met door mensen gemaakte posters, (ii) Tekstuele Samenhang - taalvloeiendheid, (iii) Holistische Beoordeling - zes verfijnde esthetische en informatieve criteria gescoord door een VLM-als-rechter, en opmerkelijk (iv) PaperQuiz - het vermogen van de poster om de kerninhoud van het paper over te brengen, gemeten aan de hand van VLMs die gegenereerde quizzen beantwoorden. Op basis van deze benchmark stellen we PosterAgent voor, een top-down, visueel-in-de-loop multi-agent pijplijn: de (a) Parser destilleert het paper in een gestructureerde assetbibliotheek; de (b) Planner brengt tekst-visuele paren in lijn met een binaire-boom lay-out die de leesvolgorde en ruimtelijke balans behoudt; en de (c) Painter-Commenter-lus verfijnt elk paneel door renderingscode uit te voeren en VLM-feedback te gebruiken om overloop te elimineren en afstemming te waarborgen. In onze uitgebreide evaluatie ontdekken we dat GPT-4o-uitvoer - hoewel op het eerste gezicht visueel aantrekkelijk - vaak rommelige tekst en slechte PaperQuiz-scores vertoont, en we constateren dat lezersbetrokkenheid de primaire esthetische bottleneck is, aangezien door mensen ontworpen posters grotendeels vertrouwen op visuele semantiek om betekenis over te brengen. Onze volledig open-source varianten (bijv. gebaseerd op de Qwen-2.5-serie) presteren beter dan bestaande 4o-gestuurde multi-agent systemen op bijna alle metrieken, terwijl ze 87% minder tokens gebruiken. Het transformeert een paper van 22 pagina's naar een afgeronde maar bewerkbare .pptx-poster - alles voor slechts $0,005. Deze bevindingen wijzen duidelijke richtingen aan voor de volgende generatie volledig geautomatiseerde postergeneratiemodellen. De code en datasets zijn beschikbaar op https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific communication, requiring the compression of long-context interleaved documents into a single, visually coherent page. To address this challenge, we introduce the first benchmark and metric suite for poster generation, which pairs recent conference papers with author-designed posters and evaluates outputs on (i)Visual Quality-semantic alignment with human posters, (ii)Textual Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic and informational criteria scored by a VLM-as-judge, and notably (iv)PaperQuiz-the poster's ability to convey core paper content as measured by VLMs answering generated quizzes. Building on this benchmark, we propose PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser distills the paper into a structured asset library; the (b)Planner aligns text-visual pairs into a binary-tree layout that preserves reading order and spatial balance; and the (c)Painter-Commenter loop refines each panel by executing rendering code and using VLM feedback to eliminate overflow and ensure alignment. In our comprehensive evaluation, we find that GPT-4o outputs-though visually appealing at first glance-often exhibit noisy text and poor PaperQuiz scores, and we find that reader engagement is the primary aesthetic bottleneck, as human-designed posters rely largely on visual semantics to convey meaning. Our fully open-source variants (e.g. based on the Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper into a finalized yet editable .pptx poster - all for just $0.005. These findings chart clear directions for the next generation of fully automated poster-generation models. The code and datasets are available at https://github.com/Paper2Poster/Paper2Poster.
PDF1072May 28, 2025