Paper2Poster: К автоматизации создания мультимодальных постеров на основе научных статей
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
May 27, 2025
Авторы: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI
Аннотация
Создание академических постеров является важной, но сложной задачей в научной коммуникации, требующей сжатия длинных, переплетенных документов в одну визуально связную страницу. Для решения этой проблемы мы представляем первый эталонный набор данных и набор метрик для генерации постеров, который связывает недавние статьи конференций с постерами, разработанными авторами, и оценивает результаты по следующим критериям: (i) Визуальное качество — семантическое соответствие постерам, созданным людьми; (ii) Текстовая связность — языковая беглость; (iii) Холистическая оценка — шесть детализированных эстетических и информационных критериев, оцениваемых с помощью VLM (визуально-языковой модели) в роли судьи; и, что особенно важно, (iv) PaperQuiz — способность постера передавать основное содержание статьи, измеряемая с помощью VLM, отвечающих на сгенерированные вопросы. На основе этого эталона мы предлагаем PosterAgent, многоагентный процесс с визуальной обратной связью, работающий по принципу "сверху вниз": (a) Парсер извлекает из статьи структурированную библиотеку данных; (b) Планировщик выравнивает текстово-визуальные пары в бинарную древовидную структуру, сохраняя порядок чтения и пространственный баланс; и (c) Цикл "Художник-Комментатор" улучшает каждую панель, выполняя код рендеринга и используя обратную связь от VLM для устранения переполнения и обеспечения соответствия. В нашем всестороннем анализе мы обнаружили, что результаты GPT-4o, хотя и выглядят визуально привлекательно на первый взгляд, часто содержат шумный текст и низкие оценки по PaperQuiz, а также выяснили, что вовлеченность читателя является основным эстетическим ограничением, поскольку постерами, созданными людьми, в значительной степени используются визуальные семантики для передачи смысла. Наши полностью открытые варианты (например, на основе серии Qwen-2.5) превосходят существующие многоагентные системы, управляемые 4o, по почти всем метрикам, при этом используя на 87% меньше токенов. Они преобразуют 22-страничную статью в готовый, но редактируемый .pptx постер — и все это всего за $0.005. Эти результаты указывают четкие направления для следующего поколения полностью автоматизированных моделей генерации постеров. Код и наборы данных доступны по адресу https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific
communication, requiring the compression of long-context interleaved documents
into a single, visually coherent page. To address this challenge, we introduce
the first benchmark and metric suite for poster generation, which pairs recent
conference papers with author-designed posters and evaluates outputs on
(i)Visual Quality-semantic alignment with human posters, (ii)Textual
Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic
and informational criteria scored by a VLM-as-judge, and notably
(iv)PaperQuiz-the poster's ability to convey core paper content as measured by
VLMs answering generated quizzes. Building on this benchmark, we propose
PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser
distills the paper into a structured asset library; the (b)Planner aligns
text-visual pairs into a binary-tree layout that preserves reading order and
spatial balance; and the (c)Painter-Commenter loop refines each panel by
executing rendering code and using VLM feedback to eliminate overflow and
ensure alignment. In our comprehensive evaluation, we find that GPT-4o
outputs-though visually appealing at first glance-often exhibit noisy text and
poor PaperQuiz scores, and we find that reader engagement is the primary
aesthetic bottleneck, as human-designed posters rely largely on visual
semantics to convey meaning. Our fully open-source variants (e.g. based on the
Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across
nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper
into a finalized yet editable .pptx poster - all for just $0.005. These
findings chart clear directions for the next generation of fully automated
poster-generation models. The code and datasets are available at
https://github.com/Paper2Poster/Paper2Poster.Summary
AI-Generated Summary