Paper2Poster: 科学論文からのマルチモーダルポスター自動生成に向けて
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
May 27, 2025
著者: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI
要旨
学術ポスターの作成は、科学コミュニケーションにおいて重要でありながらも困難な課題であり、長文で複雑に絡み合ったドキュメントを単一の視覚的にまとまったページに圧縮する必要があります。この課題に対処するため、我々はポスター生成のための初のベンチマークと評価指標群を導入しました。これには、最近の学会論文と著者デザインのポスターをペアリングし、以下の項目で出力を評価します:(i)視覚的品質—人間が作成したポスターとの意味的整合性、(ii)テキストの一貫性—言語の流暢さ、(iii)全体的な評価—VLM(Vision-Language Model)による6つの細かい美的および情報的基準のスコアリング、そして特に(iv)PaperQuiz—生成されたクイズにVLMが答えることで測定される、ポスターが論文の核心内容を伝える能力です。このベンチマークを基に、我々はPosterAgentを提案します。これは、トップダウンで視覚をループに組み込んだマルチエージェントパイプラインであり、(a)Parserが論文を構造化されたアセットライブラリに蒸留し、(b)Plannerがテキストと視覚要素をバイナリツリーレイアウトに整列させて読み順と空間的バランスを保ち、(c)Painter-Commenterループが各パネルをレンダリングコードを実行し、VLMのフィードバックを使用してオーバーフローを排除し整合性を確保します。我々の包括的な評価では、GPT-4oの出力は一見視覚的に魅力的であるものの、しばしばノイズの多いテキストや低いPaperQuizスコアを示し、読者の関与が主な美的ボトルネックであることがわかりました。人間がデザインしたポスターは、意味を伝えるために視覚的セマンティクスに大きく依存しています。我々の完全オープンソースのバリアント(例:Qwen-2.5シリーズに基づく)は、既存の4o駆動のマルチエージェントシステムをほぼすべての指標で上回り、87%少ないトークン使用量で実現しています。22ページの論文を、編集可能な.pptxポスターに変換するのに必要なコストはわずか$0.005です。これらの発見は、次世代の完全自動化ポスター生成モデルの明確な方向性を示しています。コードとデータセットはhttps://github.com/Paper2Poster/Paper2Posterで公開されています。
English
Academic poster generation is a crucial yet challenging task in scientific
communication, requiring the compression of long-context interleaved documents
into a single, visually coherent page. To address this challenge, we introduce
the first benchmark and metric suite for poster generation, which pairs recent
conference papers with author-designed posters and evaluates outputs on
(i)Visual Quality-semantic alignment with human posters, (ii)Textual
Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic
and informational criteria scored by a VLM-as-judge, and notably
(iv)PaperQuiz-the poster's ability to convey core paper content as measured by
VLMs answering generated quizzes. Building on this benchmark, we propose
PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser
distills the paper into a structured asset library; the (b)Planner aligns
text-visual pairs into a binary-tree layout that preserves reading order and
spatial balance; and the (c)Painter-Commenter loop refines each panel by
executing rendering code and using VLM feedback to eliminate overflow and
ensure alignment. In our comprehensive evaluation, we find that GPT-4o
outputs-though visually appealing at first glance-often exhibit noisy text and
poor PaperQuiz scores, and we find that reader engagement is the primary
aesthetic bottleneck, as human-designed posters rely largely on visual
semantics to convey meaning. Our fully open-source variants (e.g. based on the
Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across
nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper
into a finalized yet editable .pptx poster - all for just $0.005. These
findings chart clear directions for the next generation of fully automated
poster-generation models. The code and datasets are available at
https://github.com/Paper2Poster/Paper2Poster.Summary
AI-Generated Summary