AIBench: Оценка визуально-логической согласованности при генерации академических иллюстраций
AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation
March 31, 2026
Авторы: Zhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu
cs.AI
Аннотация
Хотя генерация изображений стимулировала развитие различных приложений благодаря своему быстрому развитию, вопрос о том, способны ли современные модели создавать готовые к использованию академические иллюстрации для научных статей, остаётся в значительной степени неисследованным. Прямое сравнение или оценка иллюстрации с помощью VLM (визуально-языковой модели) является интуитивным подходом, но требует наличия у модели способности к идеальному мультимодальному пониманию, что ненадёжно при работе с длинными и сложными текстами и иллюстрациями. Чтобы решить эту проблему, мы предлагаем AIBench — первый бенчмарк, использующий VQA (вопросно-ответные системы) для оценки логической корректности академических иллюстраций и VLM для оценки их эстетики. В частности, мы разработали четыре уровня вопросов, основанных на логической схеме, обобщённой из методической части статьи, которые проверяют соответствие сгенерированной иллюстрации содержанию статьи на разных уровнях детализации. Наш подход на основе VQA позволяет проводить более точную и детальную оценку визуально-логической согласованности, в меньшей степени полагаясь на способности модели-оценщика VLM. С помощью нашего высококачественного бенчмарка AIBench мы провели обширные эксперименты и пришли к выводу, что разрыв в производительности между моделями в данной задаче значительно превышает таковой в общих задачах, что отражает их различные способности к сложным рассуждениям и генерации высокоплотного контента. Кроме того, логику и эстетику так же сложно оптимизировать одновременно, как и в случае ручных иллюстраций. Дополнительные эксперименты также показывают, что масштабирование на этапе тестирования обеих способностей значительно повышает производительность в этой задаче.
English
Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored. Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.