AIBench: Evaluatie van visueel-logische consistentie bij het genereren van academische illustraties
AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation
March 31, 2026
Auteurs: Zhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu
cs.AI
Samenvatting
Hoewel beeldgeneratie diverse toepassingen heeft gestimuleerd door zijn snelle evolutie, is het nog grotendeels ononderzoek of de state-of-the-art modellen in staat zijn direct bruikbare academische illustraties voor artikelen te produceren. Het direct vergelijken of evalueren van de illustratie met een VLM is intuïtief, maar vereist een orakelachtig multimodaal begripsvermogen, wat onbetrouwbaar is voor lange en complexe teksten en illustraties. Om dit aan te pakken, stellen we AIBench voor, de eerste benchmark die VQA gebruikt om de logische correctheid van academische illustraties te evalueren en VLMs om de esthetiek te beoordelen. Concreet hebben we vier niveaus van vragen ontworpen, gebaseerd op een logisch diagram samengesteld uit de methodesectie van het artikel, die nagaan of de gegenereerde illustratie op verschillende schalen overeenkomt met het artikel. Onze VQA-gebaseerde aanpak leidt tot nauwkeurigere en gedetailleerdere evaluaties van visueel-logische consistentie, terwijl deze minder afhankelijk is van het beoordelingsvermogen van de VLM. Met onze hoogwaardige AIBench voeren we uitgebreide experimenten uit en concluderen we dat de prestatiekloof tussen modellen voor deze taak aanzienlijk groter is dan voor algemene taken, wat hun uiteenlopende vermogen tot complex redeneren en hoogwaardige dichtheidsgeneratie weerspiegelt. Bovendien zijn logica en esthetiek moeilijk gelijktijdig te optimaliseren, zoals ook bij handgemaakte illustraties het geval is. Aanvullende experimenten tonen verder aan dat test-time scaling van beide vermogens de prestaties voor deze taak aanzienlijk verbetert.
English
Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored. Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.