Paper2Poster: 과학 논문에서 다중 모달 포스터 자동 생성 기술 연구
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
May 27, 2025
저자: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI
초록
학술 포스터 생성은 과학 커뮤니케이션에서 중요하면서도 도전적인 과제로, 장문의 복잡한 문서를 단일 페이지로 압축하면서도 시각적으로 일관된 결과물을 만들어내야 합니다. 이 문제를 해결하기 위해, 우리는 포스터 생성을 위한 첫 번째 벤치마크와 메트릭 제품군을 소개합니다. 이는 최근 컨퍼런스 논문과 저자가 직접 디자인한 포스터를 짝지어, (i) 시각적 품질(인간이 만든 포스터와의 의미론적 일치), (ii) 텍스트 일관성(언어 유창성), (iii) 종합 평가(VLM-as-judge를 통해 점수화된 여섯 가지 세부 미적 및 정보적 기준), 그리고 특히 (iv) PaperQuiz(생성된 퀴즈에 대한 VLM의 답변을 통해 포스터가 논문의 핵심 내용을 전달하는 능력)를 평가합니다. 이 벤치마크를 기반으로, 우리는 PosterAgent를 제안합니다. 이는 상향식, 시각적 피드백이 포함된 다중 에이전트 파이프라인으로, (a) Parser가 논문을 구조화된 자원 라이브러리로 정제하고, (b) Planner가 텍스트-시각적 쌍을 읽기 순서와 공간적 균형을 유지하는 이진 트리 레이아웃으로 정렬하며, (c) Painter-Commenter 루프가 각 패널을 렌더링 코드를 실행하고 VLM 피드백을 사용하여 오버플로를 제거하고 정렬을 보장합니다. 종합 평가에서, GPT-4o 출력물은 첫눈에 시각적으로 매력적이지만 종종 텍스트가 지저분하고 PaperQuiz 점수가 낮으며, 독자 참여가 주요 미적 병목 현상임을 발견했습니다. 인간이 디자인한 포스터는 주로 시각적 의미론을 통해 의미를 전달하기 때문입니다. 우리의 완전 오픈소스 변형(예: Qwen-2.5 시리즈 기반)은 기존 4o 기반 다중 에이전트 시스템을 거의 모든 메트릭에서 능가하면서도 토큰 사용량을 87% 절감합니다. 이는 22페이지 논문을 완성된 편집 가능한 .pptx 포스터로 변환하며, 비용은 단 $0.005입니다. 이러한 발견은 완전 자동화된 포스터 생성 모델의 다음 세대를 위한 명확한 방향을 제시합니다. 코드와 데이터셋은 https://github.com/Paper2Poster/Paper2Poster에서 확인할 수 있습니다.
English
Academic poster generation is a crucial yet challenging task in scientific
communication, requiring the compression of long-context interleaved documents
into a single, visually coherent page. To address this challenge, we introduce
the first benchmark and metric suite for poster generation, which pairs recent
conference papers with author-designed posters and evaluates outputs on
(i)Visual Quality-semantic alignment with human posters, (ii)Textual
Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic
and informational criteria scored by a VLM-as-judge, and notably
(iv)PaperQuiz-the poster's ability to convey core paper content as measured by
VLMs answering generated quizzes. Building on this benchmark, we propose
PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser
distills the paper into a structured asset library; the (b)Planner aligns
text-visual pairs into a binary-tree layout that preserves reading order and
spatial balance; and the (c)Painter-Commenter loop refines each panel by
executing rendering code and using VLM feedback to eliminate overflow and
ensure alignment. In our comprehensive evaluation, we find that GPT-4o
outputs-though visually appealing at first glance-often exhibit noisy text and
poor PaperQuiz scores, and we find that reader engagement is the primary
aesthetic bottleneck, as human-designed posters rely largely on visual
semantics to convey meaning. Our fully open-source variants (e.g. based on the
Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across
nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper
into a finalized yet editable .pptx poster - all for just $0.005. These
findings chart clear directions for the next generation of fully automated
poster-generation models. The code and datasets are available at
https://github.com/Paper2Poster/Paper2Poster.Summary
AI-Generated Summary