AIBench: Bewertung der visuell-logischen Konsistenz bei der Erstellung akademischer Illustrationen
AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation
March 31, 2026
Autoren: Zhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu
cs.AI
Zusammenfassung
Obwohl die Bildgenerierung durch ihre rasante Entwicklung verschiedene Anwendungen vorangetrieben hat, ist weitgehend unerforscht, ob die modernsten Modelle in der Lage sind, direkt verwendbare akademische Illustrationen für wissenschaftliche Arbeiten zu erstellen. Ein direkter Vergleich oder eine direkte Bewertung der Illustrationen mit VLMs erscheint naheliegend, erfordert jedoch ein ideales multimodales Verständnisvermögen, das bei langen und komplexen Texten sowie Illustrationen unzuverlässig ist. Um dieses Problem zu adressieren, schlagen wir AIBench vor, den ersten Benchmark, der VQA zur Bewertung der logischen Korrektheit akademischer Illustrationen und VLMs zur Beurteilung der Ästhetik einsetzt. Im Einzelnen haben wir vier Ebenen von Fragen entworfen, die auf einem Logikdiagramm basieren, das aus dem Methodenteil der Arbeit abgeleitet wurde und abfragt, inwieweit die generierte Illustration auf verschiedenen Ebenen mit der Arbeit übereinstimmt. Unser VQA-basierter Ansatz ermöglicht genauere und detailliertere Bewertungen der visuell-logischen Konsistenz, bei gleichzeitig geringerer Abhängigkeit von den Fähigkeiten des bewertenden VLM. Mit unserem hochwertigen AIBench führen wir umfangreiche Experimente durch und kommen zu dem Schluss, dass die Leistungslücke zwischen den Modellen bei dieser Aufgabe signifikant größer ist als bei allgemeinen Aufgaben, was ihre unterschiedlichen Fähigkeiten im komplexen Schlussfolgern und in der hochverdichteten Generierung widerspiegelt. Darüber hinaus ist es schwierig, Logik und Ästhetik gleichzeitig zu optimieren, wie es bei handgefertigten Illustrationen der Fall ist. Weitere Experimente zeigen zudem, dass Test-Time-Scaling in beiden Fähigkeiten die Leistung bei dieser Aufgabe erheblich steigert.
English
Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored. Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.