Paper2Poster : Vers l'automatisation multimodale de la création d'affiches à partir d'articles scientifiques
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
May 27, 2025
Auteurs: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI
Résumé
La génération d'affiches académiques est une tâche cruciale mais complexe dans la communication scientifique, nécessitant la compression de documents à contexte long et entrelacé en une seule page visuellement cohérente. Pour relever ce défi, nous introduisons le premier benchmark et suite de métriques pour la génération d'affiches, qui associe des articles récents de conférence à des affiches conçues par les auteurs et évalue les résultats sur (i) la Qualité Visuelle - alignement sémantique avec les affiches humaines, (ii) la Cohérence Textuelle - fluidité linguistique, (iii) l'Évaluation Holistique - six critères esthétiques et informationnels détaillés notés par un VLM-juge, et notamment (iv) PaperQuiz - la capacité de l'affiche à transmettre le contenu central de l'article, mesurée par des VLMs répondant à des quiz générés. Sur la base de ce benchmark, nous proposons PosterAgent, un pipeline multi-agent de haut en bas avec boucle visuelle : le (a) Parser distille l'article en une bibliothèque d'actifs structurés ; le (b) Planner aligne les paires texte-visuel dans une disposition en arbre binaire qui préserve l'ordre de lecture et l'équilibre spatial ; et la boucle (c) Painter-Commenter affine chaque panneau en exécutant du code de rendu et en utilisant les retours d'un VLM pour éliminer les débordements et assurer l'alignement. Dans notre évaluation exhaustive, nous constatons que les sorties de GPT-4o - bien que visuellement attrayantes à première vue - présentent souvent du texte bruyant et de faibles scores PaperQuiz, et nous constatons que l'engagement du lecteur est le principal goulot d'étranglement esthétique, car les affiches conçues par des humains reposent largement sur la sémantique visuelle pour transmettre le sens. Nos variantes entièrement open-source (par exemple, basées sur la série Qwen-2.5) surpassent les systèmes multi-agents existants pilotés par 4o sur presque toutes les métriques, tout en utilisant 87 % de tokens en moins. Cela transforme un article de 22 pages en une affiche finalisée mais modifiable au format .pptx - le tout pour seulement 0,005 $. Ces résultats tracent des directions claires pour la prochaine génération de modèles de génération d'affiches entièrement automatisés. Le code et les jeux de données sont disponibles à l'adresse https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific
communication, requiring the compression of long-context interleaved documents
into a single, visually coherent page. To address this challenge, we introduce
the first benchmark and metric suite for poster generation, which pairs recent
conference papers with author-designed posters and evaluates outputs on
(i)Visual Quality-semantic alignment with human posters, (ii)Textual
Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic
and informational criteria scored by a VLM-as-judge, and notably
(iv)PaperQuiz-the poster's ability to convey core paper content as measured by
VLMs answering generated quizzes. Building on this benchmark, we propose
PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser
distills the paper into a structured asset library; the (b)Planner aligns
text-visual pairs into a binary-tree layout that preserves reading order and
spatial balance; and the (c)Painter-Commenter loop refines each panel by
executing rendering code and using VLM feedback to eliminate overflow and
ensure alignment. In our comprehensive evaluation, we find that GPT-4o
outputs-though visually appealing at first glance-often exhibit noisy text and
poor PaperQuiz scores, and we find that reader engagement is the primary
aesthetic bottleneck, as human-designed posters rely largely on visual
semantics to convey meaning. Our fully open-source variants (e.g. based on the
Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across
nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper
into a finalized yet editable .pptx poster - all for just $0.005. These
findings chart clear directions for the next generation of fully automated
poster-generation models. The code and datasets are available at
https://github.com/Paper2Poster/Paper2Poster.Summary
AI-Generated Summary