AIBench: Evaluación de la Coherencia Visual-Lógica en la Generación de Ilustraciones Académicas

Resumen

Aunque la generación de imágenes ha impulsado diversas aplicaciones gracias a su rápida evolución, la capacidad de los modelos más avanzados para producir ilustraciones académicas listas para usar en artículos sigue siendo un área en gran medida inexplorada. Comparar o evaluar directamente la ilustración con un Modelo de Lenguaje Visual (VLM) es intuitivo, pero requiere una capacidad oráculo de comprensión multimodal, la cual es poco fiable para textos e ilustraciones largos y complejos. Para abordar este problema, proponemos AIBench, el primer benchmark que utiliza VQA para evaluar la corrección lógica de las ilustraciones académicas y VLMs para valorar la estética. En detalle, hemos diseñado cuatro niveles de preguntas basadas en un diagrama lógico resumido a partir de la sección de métodos del artículo, las cuales indagan si la ilustración generada se alinea con el artículo en diferentes escalas. Nuestro enfoque basado en VQA permite evaluaciones más precisas y detalladas sobre la coherencia visual-lógica, dependiendo menos de la capacidad del VLM evaluador. Utilizando nuestro benchmark de alta calidad AIBench, realizamos extensos experimentos y concluimos que la brecha de rendimiento entre los modelos en esta tarea es significativamente mayor que en tareas generales, lo que refleja sus diversas capacidades de razonamiento complejo y generación de alta densidad. Además, la lógica y la estética son difíciles de optimizar simultáneamente, como ocurre en las ilustraciones artesanales. Experimentos adicionales indican además que el escalado en tiempo de prueba de ambas capacidades mejora significativamente el rendimiento en esta tarea.

English

Although image generation has boosted various applications via its rapid evolution, whether the state-of-the-art models are able to produce ready-to-use academic illustrations for papers is still largely unexplored. Directly comparing or evaluating the illustration with VLM is native but requires oracle multi-modal understanding ability, which is unreliable for long and complex texts and illustrations. To address this, we propose AIBench, the first benchmark using VQA for evaluating logic correctness of the academic illustrations and VLMs for assessing aesthetics. In detail, we designed four levels of questions proposed from a logic diagram summarized from the method part of the paper, which query whether the generated illustration aligns with the paper on different scales. Our VQA-based approach raises more accurate and detailed evaluations on visual-logical consistency while relying less on the ability of the judger VLM. With our high-quality AIBench, we conduct extensive experiments and conclude that the performance gap between models on this task is significantly larger than general ones, reflecting their various complex reasoning and high-density generation ability. Further, the logic and aesthetics are hard to optimize simultaneously as in handcrafted illustrations. Additional experiments further state that test-time scaling on both abilities significantly boosts the performance on this task.

AIBench: Evaluación de la Coherencia Visual-Lógica en la Generación de Ilustraciones Académicas

AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

Resumen

Support