Paper2Poster: Verso l'Automazione Multimodale di Poster a Partire da Articoli Scientifici
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
May 27, 2025
Autori: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI
Abstract
La generazione di poster accademici è un compito cruciale ma impegnativo nella comunicazione scientifica, che richiede la compressione di documenti interconnessi a lungo contesto in una singola pagina visivamente coerente. Per affrontare questa sfida, introduciamo il primo benchmark e suite di metriche per la generazione di poster, che abbina articoli recenti di conferenze a poster progettati dagli autori e valuta gli output su (i) Qualità Visiva - allineamento semantico con i poster umani, (ii) Coerenza Testuale - fluidità linguistica, (iii) Valutazione Olistica - sei criteri estetici e informativi dettagliati valutati da un VLM come giudice, e in particolare (iv) PaperQuiz - la capacità del poster di trasmettere il contenuto principale dell'articolo misurata da VLM che rispondono a quiz generati. Basandoci su questo benchmark, proponiamo PosterAgent, una pipeline multi-agente top-down con loop visivo: il (a) Parser estrae l'articolo in una libreria strutturata di asset; il (b) Planner allinea coppie testo-visivo in un layout ad albero binario che preserva l'ordine di lettura e l'equilibrio spaziale; e il (c) loop Painter-Commenter perfeziona ogni pannello eseguendo codice di rendering e utilizzando il feedback del VLM per eliminare gli overflow e garantire l'allineamento. Nella nostra valutazione completa, scopriamo che gli output di GPT-4o, sebbene visivamente accattivanti a prima vista, spesso presentano testo rumoroso e punteggi PaperQuiz scarsi, e troviamo che l'engagement del lettore è il principale collo di bottiglia estetico, poiché i poster progettati da esseri umani si basano in gran parte sulla semantica visiva per trasmettere significato. Le nostre varianti completamente open-source (ad esempio basate sulla serie Qwen-2.5) superano i sistemi multi-agente esistenti guidati da 4o in quasi tutte le metriche, utilizzando l'87% in meno di token. Trasforma un articolo di 22 pagine in un poster .pptx finalizzato ma modificabile - tutto per soli $0.005. Questi risultati tracciano direzioni chiare per la prossima generazione di modelli di generazione di poster completamente automatizzati. Il codice e i dataset sono disponibili su https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific
communication, requiring the compression of long-context interleaved documents
into a single, visually coherent page. To address this challenge, we introduce
the first benchmark and metric suite for poster generation, which pairs recent
conference papers with author-designed posters and evaluates outputs on
(i)Visual Quality-semantic alignment with human posters, (ii)Textual
Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic
and informational criteria scored by a VLM-as-judge, and notably
(iv)PaperQuiz-the poster's ability to convey core paper content as measured by
VLMs answering generated quizzes. Building on this benchmark, we propose
PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser
distills the paper into a structured asset library; the (b)Planner aligns
text-visual pairs into a binary-tree layout that preserves reading order and
spatial balance; and the (c)Painter-Commenter loop refines each panel by
executing rendering code and using VLM feedback to eliminate overflow and
ensure alignment. In our comprehensive evaluation, we find that GPT-4o
outputs-though visually appealing at first glance-often exhibit noisy text and
poor PaperQuiz scores, and we find that reader engagement is the primary
aesthetic bottleneck, as human-designed posters rely largely on visual
semantics to convey meaning. Our fully open-source variants (e.g. based on the
Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across
nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper
into a finalized yet editable .pptx poster - all for just $0.005. These
findings chart clear directions for the next generation of fully automated
poster-generation models. The code and datasets are available at
https://github.com/Paper2Poster/Paper2Poster.