ChatPaper.aiChatPaper

AIBench: 学術イラスト生成における視覚的論理的一貫性の評価

AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

March 31, 2026
著者: Zhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu
cs.AI

要旨

画像生成技術は急速な進化により様々な応用を促進しているが、最新のモデルが論文で即利用可能な学術図表を生成できるかについては未解明の部分が多い。生成図表とVLMを直接比較評価する手法は単純だが、理想的なマルチモーダル理解能力を必要とし、長文・複雑なテキストと図表に対して信頼性に欠ける。この課題に対し、我々は学術図表の論理的正しさをVQAで、美的品質をVLMで評価する初のベンチマークAIBenchを提案する。具体的には、論文の方法論セクションから抽出した論理図に基づき4段階の質問を設計し、生成図表が論文内容とどの程度整合するかを多角的に検証する。VQAベースの手法は、評価用VLMの能力への依存度を低減しつつ、視覚-論理的一貫性をより精密に評価できる。高品質なAIBenchを用いた大規模実験により、本タスクにおけるモデル間の性能差が一般タスクより顕著に大きく、複雑な推論と高密度生成能力の差異を反映することを明らかにした。さらに、手作りの図表と同様、論理性と美的品質の両立が困難であることも示唆された。追加実験では、両能力に対するテスト時スケーリングが本タスクの性能を大幅に向上させることを実証した。
English
Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored. Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.
PDF61April 4, 2026