Paper2Poster: Hacia la Automatización Multimodal de Pósters a partir de Artículos CientíficosPaper2Poster: Towards Multimodal Poster Automation from Scientific
Papers
La generación de pósteres académicos es una tarea crucial pero desafiante en la comunicación científica, ya que requiere comprimir documentos intercalados de contexto extenso en una sola página visualmente coherente. Para abordar este desafío, presentamos el primer conjunto de referencia y métricas para la generación de pósteres, que empareja artículos recientes de conferencias con pósteres diseñados por los autores y evalúa los resultados en (i) Calidad Visual: alineación semántica con pósteres humanos, (ii) Coherencia Textual: fluidez del lenguaje, (iii) Evaluación Holística: seis criterios estéticos e informativos detallados calificados por un VLM como juez, y notablemente (iv) PaperQuiz: la capacidad del póster para transmitir el contenido central del artículo, medida mediante VLMs que responden cuestionarios generados. Basándonos en este conjunto de referencia, proponemos PosterAgent, una canalización multiagente de arriba hacia abajo con retroalimentación visual: el (a) Analizador destila el artículo en una biblioteca de recursos estructurados; el (b) Planificador alinea pares texto-visual en un diseño de árbol binario que preserva el orden de lectura y el equilibrio espacial; y el (c) Bucle Pintor-Comentarista refina cada panel ejecutando código de renderizado y utilizando retroalimentación del VLM para eliminar desbordamientos y garantizar alineación. En nuestra evaluación exhaustiva, encontramos que los resultados de GPT-4o, aunque visualmente atractivos a primera vista, a menudo presentan texto ruidoso y puntuaciones bajas en PaperQuiz, y descubrimos que el compromiso del lector es el principal cuello de botella estético, ya que los pósteres diseñados por humanos dependen en gran medida de la semántica visual para transmitir significado. Nuestras variantes completamente de código abierto (por ejemplo, basadas en la serie Qwen-2.5) superan a los sistemas multiagente existentes impulsados por 4o en casi todas las métricas, mientras utilizan un 87% menos de tokens. Transforma un artículo de 22 páginas en un póster finalizado pero editable en formato .pptx, todo por solo $0.005. Estos hallazgos trazan direcciones claras para la próxima generación de modelos de generación de pósteres completamente automatizados. El código y los conjuntos de datos están disponibles en https://github.com/Paper2Poster/Paper2Poster.