Paper2Poster: Auf dem Weg zur multimodalen Automatisierung von Postern aus wissenschaftlichen ArtikelnPaper2Poster: Towards Multimodal Poster Automation from Scientific
Papers
Die Erstellung von akademischen Postern ist eine entscheidende, aber herausfordernde Aufgabe in der wissenschaftlichen Kommunikation, da sie die Komprimierung von langen, verschachtelten Dokumenten in eine einzige, visuell kohärente Seite erfordert. Um diese Herausforderung zu bewältigen, führen wir den ersten Benchmark und eine Metrik-Suite für die Postergenerierung ein, die aktuelle Konferenzpapiere mit von Autoren entworfenen Postern kombiniert und die Ergebnisse anhand von (i) Visueller Qualität – semantischer Übereinstimmung mit menschlichen Postern, (ii) Textueller Kohärenz – Sprachflüssigkeit, (iii) Ganzheitlicher Bewertung – sechs fein abgestuften ästhetischen und informativen Kriterien, die von einem VLM (Vision-Language Model) bewertet werden, und insbesondere (iv) PaperQuiz – der Fähigkeit des Posters, den Kerninhalt des Papiers zu vermitteln, gemessen durch VLMs, die generierte Quizfragen beantworten, evaluiert. Aufbauend auf diesem Benchmark schlagen wir PosterAgent vor, eine Top-Down, visuell-in-the-loop Multi-Agenten-Pipeline: der (a) Parser destilliert das Papier in eine strukturierte Asset-Bibliothek; der (b) Planner ordnet Text-Bild-Paare in einem Binärbaum-Layout an, das die Lesereihenfolge und räumliche Balance bewahrt; und die (c) Painter-Commenter-Schleife verfeinert jedes Panel durch die Ausführung von Rendering-Code und die Nutzung von VLM-Feedback, um Überlauf zu eliminieren und Ausrichtung sicherzustellen. In unserer umfassenden Evaluation stellen wir fest, dass GPT-4o-Ergebnisse – obwohl auf den ersten Blick visuell ansprechend – oft verrauschten Text und schlechte PaperQuiz-Werte aufweisen, und wir finden, dass die Leserbindung der primäre ästhetische Engpass ist, da von Menschen gestaltete Poster weitgehend auf visuelle Semantik angewiesen sind, um Bedeutung zu vermitteln. Unsere vollständig Open-Source-Varianten (z.B. basierend auf der Qwen-2.5-Serie) übertreffen bestehende 4o-gesteuerte Multi-Agenten-Systeme in nahezu allen Metriken, während sie 87 % weniger Tokens verwenden. Es transformiert ein 22-seitiges Papier in ein fertiges, aber editierbares .pptx-Poster – alles für nur $0,005. Diese Ergebnisse weisen klare Richtungen für die nächste Generation vollautomatischer Postergenerierungsmodelle auf. Der Code und die Datensätze sind verfügbar unter https://github.com/Paper2Poster/Paper2Poster.