Paper2Poster: Hacia la Automatización Multimodal de Pósters a partir de Artículos Científicos
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
May 27, 2025
Autores: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI
Resumen
La generación de pósteres académicos es una tarea crucial pero desafiante en la comunicación científica, ya que requiere comprimir documentos intercalados de contexto extenso en una sola página visualmente coherente. Para abordar este desafío, presentamos el primer conjunto de referencia y métricas para la generación de pósteres, que empareja artículos recientes de conferencias con pósteres diseñados por los autores y evalúa los resultados en (i) Calidad Visual: alineación semántica con pósteres humanos, (ii) Coherencia Textual: fluidez del lenguaje, (iii) Evaluación Holística: seis criterios estéticos e informativos detallados calificados por un VLM como juez, y notablemente (iv) PaperQuiz: la capacidad del póster para transmitir el contenido central del artículo, medida mediante VLMs que responden cuestionarios generados. Basándonos en este conjunto de referencia, proponemos PosterAgent, una canalización multiagente de arriba hacia abajo con retroalimentación visual: el (a) Analizador destila el artículo en una biblioteca de recursos estructurados; el (b) Planificador alinea pares texto-visual en un diseño de árbol binario que preserva el orden de lectura y el equilibrio espacial; y el (c) Bucle Pintor-Comentarista refina cada panel ejecutando código de renderizado y utilizando retroalimentación del VLM para eliminar desbordamientos y garantizar alineación. En nuestra evaluación exhaustiva, encontramos que los resultados de GPT-4o, aunque visualmente atractivos a primera vista, a menudo presentan texto ruidoso y puntuaciones bajas en PaperQuiz, y descubrimos que el compromiso del lector es el principal cuello de botella estético, ya que los pósteres diseñados por humanos dependen en gran medida de la semántica visual para transmitir significado. Nuestras variantes completamente de código abierto (por ejemplo, basadas en la serie Qwen-2.5) superan a los sistemas multiagente existentes impulsados por 4o en casi todas las métricas, mientras utilizan un 87% menos de tokens. Transforma un artículo de 22 páginas en un póster finalizado pero editable en formato .pptx, todo por solo $0.005. Estos hallazgos trazan direcciones claras para la próxima generación de modelos de generación de pósteres completamente automatizados. El código y los conjuntos de datos están disponibles en https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific
communication, requiring the compression of long-context interleaved documents
into a single, visually coherent page. To address this challenge, we introduce
the first benchmark and metric suite for poster generation, which pairs recent
conference papers with author-designed posters and evaluates outputs on
(i)Visual Quality-semantic alignment with human posters, (ii)Textual
Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic
and informational criteria scored by a VLM-as-judge, and notably
(iv)PaperQuiz-the poster's ability to convey core paper content as measured by
VLMs answering generated quizzes. Building on this benchmark, we propose
PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser
distills the paper into a structured asset library; the (b)Planner aligns
text-visual pairs into a binary-tree layout that preserves reading order and
spatial balance; and the (c)Painter-Commenter loop refines each panel by
executing rendering code and using VLM feedback to eliminate overflow and
ensure alignment. In our comprehensive evaluation, we find that GPT-4o
outputs-though visually appealing at first glance-often exhibit noisy text and
poor PaperQuiz scores, and we find that reader engagement is the primary
aesthetic bottleneck, as human-designed posters rely largely on visual
semantics to convey meaning. Our fully open-source variants (e.g. based on the
Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across
nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper
into a finalized yet editable .pptx poster - all for just $0.005. These
findings chart clear directions for the next generation of fully automated
poster-generation models. The code and datasets are available at
https://github.com/Paper2Poster/Paper2Poster.Summary
AI-Generated Summary