AIBench : Évaluation de la Cohérence Visuo-Logique dans la Génération d'Illustrations Académiques

Résumé

Bien que la génération d'images ait stimulé diverses applications grâce à son évolution rapide, la capacité des modèles de pointe à produire des illustrations académiques prêtes à l'emploi pour des articles reste largement inexplorée. Comparer ou évaluer directement l'illustration avec un modèle de langage visuel (VLM) semble intuitif, mais nécessite une capacité de compréhension multimodale de référence, qui s'avère peu fiable pour des textes et illustrations longs et complexes. Pour résoudre ce problème, nous proposons AIBench, le premier benchmark utilisant des questions à réponse visuelle (VQA) pour évaluer la justesse logique des illustrations académiques et des VLM pour évaluer l'esthétique. Concrètement, nous avons conçu quatre niveaux de questions basées sur un diagramme logique résumé à partir de la section méthodologique de l'article, interrogeant si l'illustration générée correspond au contenu de l'article à différentes échelles. Notre approche fondée sur le VQA permet des évaluations plus précises et détaillées de la cohérence visuo-logique tout en dépendant moins des capacités du VLM évaluateur. Grâce à notre benchmark AIBench de haute qualité, nous menons des expériences approfondies et concluons que l'écart de performance entre les modèles sur cette tâche est nettement plus important que pour les tâches générales, reflétant leurs capacités variables en raisonnement complexe et en génération haute densité. De plus, la logique et l'esthétique sont difficiles à optimiser simultanément, comme dans les illustrations artisanales. Des expériences supplémentaires montrent qu'un scaling au moment du test sur ces deux capacités améliore significativement les performances sur cette tâche.

English

Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored. Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.

AIBench : Évaluation de la Cohérence Visuo-Logique dans la Génération d'Illustrations Académiques

AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

Résumé

Support