Paper2Poster : Vers l'automatisation multimodale de la création d'affiches à partir d'articles scientifiquesPaper2Poster: Towards Multimodal Poster Automation from Scientific
Papers
La gĂ©nĂ©ration d'affiches acadĂ©miques est une tĂąche cruciale mais complexe dans la communication scientifique, nĂ©cessitant la compression de documents Ă contexte long et entrelacĂ© en une seule page visuellement cohĂ©rente. Pour relever ce dĂ©fi, nous introduisons le premier benchmark et suite de mĂ©triques pour la gĂ©nĂ©ration d'affiches, qui associe des articles rĂ©cents de confĂ©rence Ă des affiches conçues par les auteurs et Ă©value les rĂ©sultats sur (i) la QualitĂ© Visuelle - alignement sĂ©mantique avec les affiches humaines, (ii) la CohĂ©rence Textuelle - fluiditĂ© linguistique, (iii) l'Ăvaluation Holistique - six critĂšres esthĂ©tiques et informationnels dĂ©taillĂ©s notĂ©s par un VLM-juge, et notamment (iv) PaperQuiz - la capacitĂ© de l'affiche Ă transmettre le contenu central de l'article, mesurĂ©e par des VLMs rĂ©pondant Ă des quiz gĂ©nĂ©rĂ©s. Sur la base de ce benchmark, nous proposons PosterAgent, un pipeline multi-agent de haut en bas avec boucle visuelle : le (a) Parser distille l'article en une bibliothĂšque d'actifs structurĂ©s ; le (b) Planner aligne les paires texte-visuel dans une disposition en arbre binaire qui prĂ©serve l'ordre de lecture et l'Ă©quilibre spatial ; et la boucle (c) Painter-Commenter affine chaque panneau en exĂ©cutant du code de rendu et en utilisant les retours d'un VLM pour Ă©liminer les dĂ©bordements et assurer l'alignement. Dans notre Ă©valuation exhaustive, nous constatons que les sorties de GPT-4o - bien que visuellement attrayantes Ă premiĂšre vue - prĂ©sentent souvent du texte bruyant et de faibles scores PaperQuiz, et nous constatons que l'engagement du lecteur est le principal goulot d'Ă©tranglement esthĂ©tique, car les affiches conçues par des humains reposent largement sur la sĂ©mantique visuelle pour transmettre le sens. Nos variantes entiĂšrement open-source (par exemple, basĂ©es sur la sĂ©rie Qwen-2.5) surpassent les systĂšmes multi-agents existants pilotĂ©s par 4o sur presque toutes les mĂ©triques, tout en utilisant 87 % de tokens en moins. Cela transforme un article de 22 pages en une affiche finalisĂ©e mais modifiable au format .pptx - le tout pour seulement 0,005 $. Ces rĂ©sultats tracent des directions claires pour la prochaine gĂ©nĂ©ration de modĂšles de gĂ©nĂ©ration d'affiches entiĂšrement automatisĂ©s. Le code et les jeux de donnĂ©es sont disponibles Ă l'adresse https://github.com/Paper2Poster/Paper2Poster.