ChatPaper.aiChatPaper

AIBench: 학술 일러스트레이션 생성의 시각-논리적 일관성 평가

AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

March 31, 2026
저자: Zhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu
cs.AI

초록

이미지 생성 기술은 빠른 발전을 통해 다양한 응용 분야를 촉진해 왔지만, 최첨단 모델이 논문에 바로 사용할 수 있는 학술 일러스트레이션을 생성할 수 있는지 여부는 아직 크게 탐구되지 않았다. 생성된 일러스트레이션을 VLM으로 직접 비교하거나 평가하는 것은 직관적이지만, 장문의 복잡한 텍스트와 일러스트레이션에 대한 정확한 다중 모달 이해 능력이 필요하며 이는 신뢰하기 어렵다. 이를 해결하기 위해 우리는 학술 일러스트레이션의 논리 정확성 평가를 위해 VQA를, 미적 평가를 위해 VLM을 활용하는 최초의 벤치마크인 AIBench를 제안한다. 구체적으로, 논문의 방법론 부분에서 요약된 논리 다이어그램에서 도출된 4단계 질문을 설계하여 생성된 일러스트레이션이 다양한 수준에서 논문과 일치하는지 질의한다. 우리의 VQA 기반 접근법은 평가자 VLM의 능력에 덜 의존하면서 시각-논리 일관성에 대해 더 정확하고 세부적인 평가를 제공한다. 고품질 AIBench를 통해 광범위한 실험을 수행한 결과, 이 과제에서 모델 간 성능 격차가 일반적인 생성 과제보다 현저히 크며, 이는 모델들의 복잡한 추론 능력과 고밀도 생성 능력의 차이를 반영함을 확인했다. 또한, 논리성과 미적 요소는 수작업 일러스트레이션에서처럼 동시에 최적화하기 어렵다는 점을 발견했다. 추가 실험을 통해 두 능력 모두에 대한 테스트 타임 스케일링이 이 과제의 성능을 크게 향상시킨다는 것을 추가로 확인했다.
English
Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored. Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.
PDF61April 4, 2026