Paper2Poster: Rumo à Automação Multimodal de Pôsteres a partir de Artigos Científicos
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
May 27, 2025
Autores: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI
Resumo
A geração de pôsteres acadêmicos é uma tarefa crucial, porém desafiadora, na comunicação científica, exigindo a compressão de documentos intercalados de longo contexto em uma única página visualmente coesa. Para enfrentar esse desafio, introduzimos o primeiro benchmark e conjunto de métricas para geração de pôsteres, que emparelha artigos recentes de conferências com pôsteres projetados pelos autores e avalia as saídas com base em: (i) Qualidade Visual - alinhamento semântico com pôsteres humanos, (ii) Coerência Textual - fluência linguística, (iii) Avaliação Holística - seis critérios estéticos e informacionais detalhados pontuados por um VLM como juiz, e notavelmente (iv) PaperQuiz - a capacidade do pôster de transmitir o conteúdo principal do artigo, medida por VLMs respondendo a questionários gerados. Com base nesse benchmark, propomos o PosterAgent, um pipeline multiagente de cima para baixo com loop visual: o (a) Parser destila o artigo em uma biblioteca estruturada de recursos; o (b) Planner alinha pares texto-visual em um layout de árvore binária que preserva a ordem de leitura e o equilíbrio espacial; e o loop (c) Painter-Commenter refina cada painel executando código de renderização e usando feedback do VLM para eliminar transbordamentos e garantir alinhamento. Em nossa avaliação abrangente, descobrimos que as saídas do GPT-4o - embora visualmente atraentes à primeira vista - frequentemente exibem texto ruidoso e pontuações baixas no PaperQuiz, e constatamos que o engajamento do leitor é o principal gargalo estético, já que pôsteres projetados por humanos dependem amplamente de semântica visual para transmitir significado. Nossas variantes totalmente de código aberto (por exemplo, baseadas na série Qwen-2.5) superam os sistemas multiagentes existentes impulsionados por 4o em quase todas as métricas, enquanto utilizam 87% menos tokens. Ele transforma um artigo de 22 páginas em um pôster finalizado, mas editável, em formato .pptx - tudo por apenas $0,005. Essas descobertas traçam direções claras para a próxima geração de modelos de geração de pôsteres totalmente automatizados. O código e os conjuntos de dados estão disponíveis em https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific
communication, requiring the compression of long-context interleaved documents
into a single, visually coherent page. To address this challenge, we introduce
the first benchmark and metric suite for poster generation, which pairs recent
conference papers with author-designed posters and evaluates outputs on
(i)Visual Quality-semantic alignment with human posters, (ii)Textual
Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic
and informational criteria scored by a VLM-as-judge, and notably
(iv)PaperQuiz-the poster's ability to convey core paper content as measured by
VLMs answering generated quizzes. Building on this benchmark, we propose
PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser
distills the paper into a structured asset library; the (b)Planner aligns
text-visual pairs into a binary-tree layout that preserves reading order and
spatial balance; and the (c)Painter-Commenter loop refines each panel by
executing rendering code and using VLM feedback to eliminate overflow and
ensure alignment. In our comprehensive evaluation, we find that GPT-4o
outputs-though visually appealing at first glance-often exhibit noisy text and
poor PaperQuiz scores, and we find that reader engagement is the primary
aesthetic bottleneck, as human-designed posters rely largely on visual
semantics to convey meaning. Our fully open-source variants (e.g. based on the
Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across
nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper
into a finalized yet editable .pptx poster - all for just $0.005. These
findings chart clear directions for the next generation of fully automated
poster-generation models. The code and datasets are available at
https://github.com/Paper2Poster/Paper2Poster.