ChatPaper.aiChatPaper

Paper2Poster: Auf dem Weg zur multimodalen Automatisierung von Postern aus wissenschaftlichen Artikeln

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

May 27, 2025
Autoren: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
cs.AI

Zusammenfassung

Die Erstellung von akademischen Postern ist eine entscheidende, aber herausfordernde Aufgabe in der wissenschaftlichen Kommunikation, da sie die Komprimierung von langen, verschachtelten Dokumenten in eine einzige, visuell kohärente Seite erfordert. Um diese Herausforderung zu bewältigen, führen wir den ersten Benchmark und eine Metrik-Suite für die Postergenerierung ein, die aktuelle Konferenzpapiere mit von Autoren entworfenen Postern kombiniert und die Ergebnisse anhand von (i) Visueller Qualität – semantischer Übereinstimmung mit menschlichen Postern, (ii) Textueller Kohärenz – Sprachflüssigkeit, (iii) Ganzheitlicher Bewertung – sechs fein abgestuften ästhetischen und informativen Kriterien, die von einem VLM (Vision-Language Model) bewertet werden, und insbesondere (iv) PaperQuiz – der Fähigkeit des Posters, den Kerninhalt des Papiers zu vermitteln, gemessen durch VLMs, die generierte Quizfragen beantworten, evaluiert. Aufbauend auf diesem Benchmark schlagen wir PosterAgent vor, eine Top-Down, visuell-in-the-loop Multi-Agenten-Pipeline: der (a) Parser destilliert das Papier in eine strukturierte Asset-Bibliothek; der (b) Planner ordnet Text-Bild-Paare in einem Binärbaum-Layout an, das die Lesereihenfolge und räumliche Balance bewahrt; und die (c) Painter-Commenter-Schleife verfeinert jedes Panel durch die Ausführung von Rendering-Code und die Nutzung von VLM-Feedback, um Überlauf zu eliminieren und Ausrichtung sicherzustellen. In unserer umfassenden Evaluation stellen wir fest, dass GPT-4o-Ergebnisse – obwohl auf den ersten Blick visuell ansprechend – oft verrauschten Text und schlechte PaperQuiz-Werte aufweisen, und wir finden, dass die Leserbindung der primäre ästhetische Engpass ist, da von Menschen gestaltete Poster weitgehend auf visuelle Semantik angewiesen sind, um Bedeutung zu vermitteln. Unsere vollständig Open-Source-Varianten (z.B. basierend auf der Qwen-2.5-Serie) übertreffen bestehende 4o-gesteuerte Multi-Agenten-Systeme in nahezu allen Metriken, während sie 87 % weniger Tokens verwenden. Es transformiert ein 22-seitiges Papier in ein fertiges, aber editierbares .pptx-Poster – alles für nur $0,005. Diese Ergebnisse weisen klare Richtungen für die nächste Generation vollautomatischer Postergenerierungsmodelle auf. Der Code und die Datensätze sind verfügbar unter https://github.com/Paper2Poster/Paper2Poster.
English
Academic poster generation is a crucial yet challenging task in scientific communication, requiring the compression of long-context interleaved documents into a single, visually coherent page. To address this challenge, we introduce the first benchmark and metric suite for poster generation, which pairs recent conference papers with author-designed posters and evaluates outputs on (i)Visual Quality-semantic alignment with human posters, (ii)Textual Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic and informational criteria scored by a VLM-as-judge, and notably (iv)PaperQuiz-the poster's ability to convey core paper content as measured by VLMs answering generated quizzes. Building on this benchmark, we propose PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser distills the paper into a structured asset library; the (b)Planner aligns text-visual pairs into a binary-tree layout that preserves reading order and spatial balance; and the (c)Painter-Commenter loop refines each panel by executing rendering code and using VLM feedback to eliminate overflow and ensure alignment. In our comprehensive evaluation, we find that GPT-4o outputs-though visually appealing at first glance-often exhibit noisy text and poor PaperQuiz scores, and we find that reader engagement is the primary aesthetic bottleneck, as human-designed posters rely largely on visual semantics to convey meaning. Our fully open-source variants (e.g. based on the Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper into a finalized yet editable .pptx poster - all for just $0.005. These findings chart clear directions for the next generation of fully automated poster-generation models. The code and datasets are available at https://github.com/Paper2Poster/Paper2Poster.

Summary

AI-Generated Summary

PDF911May 28, 2025