AIBench: Avaliação da Consistência Visual-Lógica na Geração de Ilustrações Acadêmicas
AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation
March 31, 2026
Autores: Zhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu
cs.AI
Resumo
Embora a geração de imagens tenha impulsionado diversas aplicações por meio de sua rápida evolução, a capacidade dos modelos mais avançados em produzir ilustrações acadêmicas prontas para uso em artigos ainda é amplamente inexplorada. Comparar ou avaliar diretamente a ilustração com modelos de linguagem visual (VLM) é uma abordagem ingênua, mas exige uma capacidade oráculo de compreensão multimodal, que é pouco confiável para textos e ilustrações longos e complexos. Para resolver isso, propomos o AIBench, o primeiro benchmark que utiliza VQA (Visual Question Answering) para avaliar a correção lógica das ilustrações acadêmicas e VLMs para avaliar a estética. Em detalhes, projetamos quatro níveis de questões propostas a partir de um diagrama lógico resumido da seção de metodologia do artigo, que questionam se a ilustração gerada está alinhada com o artigo em diferentes escalas. Nossa abordagem baseada em VQA oferece avaliações mais precisas e detalhadas sobre a consistência visual-lógica, dependendo menos da capacidade do VLM avaliador. Com nosso AIBench de alta qualidade, realizamos extensivos experimentos e concluímos que a diferença de desempenho entre os modelos nesta tarefa é significativamente maior do que em tarefas gerais, refletindo suas diversas capacidades de raciocínio complexo e geração de alta densidade. Além disso, a lógica e a estética são difíceis de otimizar simultaneamente, como ocorre em ilustrações artesanais. Experimentos adicionais indicam ainda que o escalonamento em tempo de teste em ambas as habilidades aumenta significativamente o desempenho nesta tarefa.
English
Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored. Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.