ChatPaper.aiChatPaper

Paper2Poster: Hacia la Automatización Multimodal de Pósters a partir de Artículos Científicos

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

May 27, 2025
Autores: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI

Resumen

La generación de pósteres académicos es una tarea crucial pero desafiante en la comunicación científica, ya que requiere comprimir documentos intercalados de contexto extenso en una sola página visualmente coherente. Para abordar este desafío, presentamos el primer conjunto de referencia y métricas para la generación de pósteres, que empareja artículos recientes de conferencias con pósteres diseñados por los autores y evalúa los resultados en (i) Calidad Visual: alineación semántica con pósteres humanos, (ii) Coherencia Textual: fluidez del lenguaje, (iii) Evaluación Holística: seis criterios estéticos e informativos detallados calificados por un VLM como juez, y notablemente (iv) PaperQuiz: la capacidad del póster para transmitir el contenido central del artículo, medida mediante VLMs que responden cuestionarios generados. Basándonos en este conjunto de referencia, proponemos PosterAgent, una canalización multiagente de arriba hacia abajo con retroalimentación visual: el (a) Analizador destila el artículo en una biblioteca de recursos estructurados; el (b) Planificador alinea pares texto-visual en un diseño de árbol binario que preserva el orden de lectura y el equilibrio espacial; y el (c) Bucle Pintor-Comentarista refina cada panel ejecutando código de renderizado y utilizando retroalimentación del VLM para eliminar desbordamientos y garantizar alineación. En nuestra evaluación exhaustiva, encontramos que los resultados de GPT-4o, aunque visualmente atractivos a primera vista, a menudo presentan texto ruidoso y puntuaciones bajas en PaperQuiz, y descubrimos que el compromiso del lector es el principal cuello de botella estético, ya que los pósteres diseñados por humanos dependen en gran medida de la semántica visual para transmitir significado. Nuestras variantes completamente de código abierto (por ejemplo, basadas en la serie Qwen-2.5) superan a los sistemas multiagente existentes impulsados por 4o en casi todas las métricas, mientras utilizan un 87% menos de tokens. Transforma un artículo de 22 páginas en un póster finalizado pero editable en formato .pptx, todo por solo $0.005. Estos hallazgos trazan direcciones claras para la próxima generación de modelos de generación de pósteres completamente automatizados. El código y los conjuntos de datos están disponibles en https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific communication, requiring the compression of long-context interleaved documents into a single, visually coherent page. To address this challenge, we introduce the first benchmark and metric suite for poster generation, which pairs recent conference papers with author-designed posters and evaluates outputs on (i)Visual Quality-semantic alignment with human posters, (ii)Textual Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic and informational criteria scored by a VLM-as-judge, and notably (iv)PaperQuiz-the poster's ability to convey core paper content as measured by VLMs answering generated quizzes. Building on this benchmark, we propose PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser distills the paper into a structured asset library; the (b)Planner aligns text-visual pairs into a binary-tree layout that preserves reading order and spatial balance; and the (c)Painter-Commenter loop refines each panel by executing rendering code and using VLM feedback to eliminate overflow and ensure alignment. In our comprehensive evaluation, we find that GPT-4o outputs-though visually appealing at first glance-often exhibit noisy text and poor PaperQuiz scores, and we find that reader engagement is the primary aesthetic bottleneck, as human-designed posters rely largely on visual semantics to convey meaning. Our fully open-source variants (e.g. based on the Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper into a finalized yet editable .pptx poster - all for just $0.005. These findings chart clear directions for the next generation of fully automated poster-generation models. The code and datasets are available at https://github.com/Paper2Poster/Paper2Poster.

Summary

AI-Generated Summary

PDF911May 28, 2025