ChatPaper.aiChatPaper

PosterGen: 다중 에이전트 LLM을 통한 미적 감각을 고려한 논문-포스터 생성

PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs

August 24, 2025
저자: Zhilin Zhang, Xiang Zhang, Jiaqi Wei, Yiwei Xu, Chenyu You
cs.AI

초록

대형 언어 모델(LLM)을 기반으로 구축된 다중 에이전트 시스템은 복잡한 구성 작업을 해결하는 데 있어 놀라운 능력을 보여주고 있습니다. 본 연구에서는 이러한 패러다임을 학회 준비를 위해 연구자들이 직면하는 실용적이면서도 시간이 많이 소요되는 논문-포스터 생성 문제에 적용합니다. 최근의 접근 방식들이 이 작업을 자동화하려고 시도했지만, 대부분 핵심 디자인과 미학적 원칙을 간과하여 상당한 수작업 개선이 필요한 포스터를 생성합니다. 이러한 디자인적 한계를 해결하기 위해, 우리는 전문 포스터 디자이너의 작업 흐름을 반영한 다중 에이전트 프레임워크인 PosterGen을 제안합니다. 이 프레임워크는 네 가지 협업적 특화 에이전트로 구성됩니다: (1) Parser와 Curator 에이전트는 논문에서 내용을 추출하고 스토리보드를 구성합니다; (2) Layout 에이전트는 내용을 일관된 공간적 레이아웃으로 매핑합니다; (3) Stylist 에이전트는 색상과 타이포그래피와 같은 시각적 디자인 요소를 적용합니다; 그리고 (4) Renderer는 최종 포스터를 구성합니다. 이러한 에이전트들은 함께 의미적으로 근거 있고 시각적으로 매력적인 포스터를 생성합니다. 디자인 품질을 평가하기 위해, 우리는 레이아웃 균형, 가독성, 미학적 일관성을 측정하는 시각-언어 모델(VLM) 기반 평가 기준을 도입했습니다. 실험 결과는 PosterGen이 내용 충실도에서는 일관되게 기존 방법과 동등한 성능을 보이며, 시각적 디자인에서는 기존 방법들을 크게 능가하여 최소한의 인간 개선만으로도 발표 준비가 완료된 포스터를 생성함을 보여줍니다.
English
Multi-agent systems built upon large language models (LLMs) have demonstrated remarkable capabilities in tackling complex compositional tasks. In this work, we apply this paradigm to the paper-to-poster generation problem, a practical yet time-consuming process faced by researchers preparing for conferences. While recent approaches have attempted to automate this task, most neglect core design and aesthetic principles, resulting in posters that require substantial manual refinement. To address these design limitations, we propose PosterGen, a multi-agent framework that mirrors the workflow of professional poster designers. It consists of four collaborative specialized agents: (1) Parser and Curator agents extract content from the paper and organize storyboard; (2) Layout agent maps the content into a coherent spatial layout; (3) Stylist agents apply visual design elements such as color and typography; and (4) Renderer composes the final poster. Together, these agents produce posters that are both semantically grounded and visually appealing. To evaluate design quality, we introduce a vision-language model (VLM)-based rubric that measures layout balance, readability, and aesthetic coherence. Experimental results show that PosterGen consistently matches in content fidelity, and significantly outperforms existing methods in visual designs, generating posters that are presentation-ready with minimal human refinements.
PDF133August 26, 2025