HumanEval-V: Evaluando la comprensión visual y las habilidades de razonamiento de los modelos multimodales grandes a través de tareas de codificación
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
October 16, 2024
Autores: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
cs.AI
Resumen
Las tareas de codificación han sido valiosas para evaluar los Modelos de Lenguaje Grandes (LLMs), ya que exigen la comprensión de instrucciones de alto nivel, razonamiento complejo y la implementación de programas funcionales, capacidades fundamentales para avanzar en la Inteligencia Artificial General. A pesar del progreso en los Modelos Multimodales Grandes (LMMs), que extienden los LLMs con capacidades de percepción y comprensión visual, sigue existiendo una notable falta de referencias de codificación que evalúen rigurosamente estos modelos, especialmente en tareas que enfatizan el razonamiento visual. Para abordar esta brecha, presentamos HumanEval-V, un nuevo y ligero referente diseñado específicamente para evaluar las capacidades de comprensión y razonamiento visual de los LMMs a través de la generación de código. HumanEval-V incluye 108 tareas de codificación en Python de nivel básico cuidadosamente elaboradas, derivadas de plataformas como CodeForces y Stack Overflow. Cada tarea se adapta modificando el contexto y los patrones algorítmicos de los problemas originales, con elementos visuales redibujados para garantizar la distinción de la fuente, evitando posibles fugas de datos. Se requiere que los LMMs completen la solución de código basándose en el contexto visual proporcionado y una firma de función predefinida en Python que describe los requisitos de la tarea. Cada tarea está equipada con casos de prueba meticulosamente elaborados para garantizar una evaluación exhaustiva y confiable de las soluciones generadas por el modelo. Evaluamos 19 LMMs de última generación utilizando HumanEval-V, revelando desafíos significativos. Modelos propietarios como GPT-4o solo logran un 13% de aprobación@1 y un 36.4% de aprobación@10, mientras que los modelos de peso abierto con 70 mil millones de parámetros obtienen menos del 4% de aprobación@1. Estudios de ablación revelan además las limitaciones de los LMMs actuales en razonamiento visual y capacidades de codificación. Estos resultados subrayan áreas clave para futuras investigaciones con el fin de mejorar las capacidades de los LMMs. Hemos compartido nuestro código y referente en https://github.com/HumanEval-V/HumanEval-V-Benchmark.
English
Coding tasks have been valuable for evaluating Large Language Models (LLMs),
as they demand the comprehension of high-level instructions, complex reasoning,
and the implementation of functional programs -- core capabilities for
advancing Artificial General Intelligence. Despite the progress in Large
Multimodal Models (LMMs), which extend LLMs with visual perception and
understanding capabilities, there remains a notable lack of coding benchmarks
that rigorously assess these models, particularly in tasks that emphasize
visual reasoning. To address this gap, we introduce HumanEval-V, a novel and
lightweight benchmark specifically designed to evaluate LMMs' visual
understanding and reasoning capabilities through code generation. HumanEval-V
includes 108 carefully crafted, entry-level Python coding tasks derived from
platforms like CodeForces and Stack Overflow. Each task is adapted by modifying
the context and algorithmic patterns of the original problems, with visual
elements redrawn to ensure distinction from the source, preventing potential
data leakage. LMMs are required to complete the code solution based on the
provided visual context and a predefined Python function signature outlining
the task requirements. Every task is equipped with meticulously handcrafted
test cases to ensure a thorough and reliable evaluation of model-generated
solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering
significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1
and 36.4% pass@10, while open-weight models with 70B parameters score below 4%
pass@1. Ablation studies further reveal the limitations of current LMMs in
vision reasoning and coding capabilities. These results underscore key areas
for future research to enhance LMMs' capabilities. We have open-sourced our
code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.Summary
AI-Generated Summary