HumanEval-V: Avaliando as Capacidades de Compreensão Visual e Raciocínio de Modelos Multimodais Grandes por Meio de Tarefas de Codificação
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
October 16, 2024
Autores: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
cs.AI
Resumo
Tarefas de codificação têm sido valiosas para avaliar Modelos de Linguagem de Grande Escala (LLMs), pois exigem a compreensão de instruções de alto nível, raciocínio complexo e implementação de programas funcionais - capacidades essenciais para o avanço da Inteligência Artificial Geral. Apesar do progresso em Modelos Multimodais de Grande Escala (LMMs), que estendem os LLMs com capacidades de percepção e compreensão visual, ainda há uma notável falta de benchmarks de codificação que avaliem rigorosamente esses modelos, especialmente em tarefas que enfatizam o raciocínio visual. Para abordar essa lacuna, apresentamos o HumanEval-V, um benchmark inovador e leve projetado especificamente para avaliar as capacidades de compreensão e raciocínio visual dos LMMs por meio da geração de código. O HumanEval-V inclui 108 tarefas de codificação em Python de nível básico cuidadosamente elaboradas, derivadas de plataformas como CodeForces e Stack Overflow. Cada tarefa é adaptada modificando o contexto e os padrões algorítmicos dos problemas originais, com elementos visuais redesenhados para garantir distinção da fonte, evitando possíveis vazamentos de dados. Os LMMs devem completar a solução de código com base no contexto visual fornecido e em uma assinatura de função Python predefinida que descreve os requisitos da tarefa. Cada tarefa é equipada com casos de teste meticulosamente elaborados para garantir uma avaliação completa e confiável das soluções geradas pelo modelo. Avaliamos 19 LMMs de última geração usando o HumanEval-V, revelando desafios significativos. Modelos proprietários como o GPT-4o alcançam apenas 13% de aprovação@1 e 36,4% de aprovação@10, enquanto modelos de peso aberto com 70B de parâmetros pontuam abaixo de 4% de aprovação@1. Estudos de ablação ainda revelam as limitações dos LMMs atuais em raciocínio visual e capacidades de codificação. Esses resultados destacam áreas-chave para pesquisas futuras visando aprimorar as capacidades dos LMMs. Disponibilizamos nosso código e benchmark em código aberto em https://github.com/HumanEval-V/HumanEval-V-Benchmark.
English
Coding tasks have been valuable for evaluating Large Language Models (LLMs),
as they demand the comprehension of high-level instructions, complex reasoning,
and the implementation of functional programs -- core capabilities for
advancing Artificial General Intelligence. Despite the progress in Large
Multimodal Models (LMMs), which extend LLMs with visual perception and
understanding capabilities, there remains a notable lack of coding benchmarks
that rigorously assess these models, particularly in tasks that emphasize
visual reasoning. To address this gap, we introduce HumanEval-V, a novel and
lightweight benchmark specifically designed to evaluate LMMs' visual
understanding and reasoning capabilities through code generation. HumanEval-V
includes 108 carefully crafted, entry-level Python coding tasks derived from
platforms like CodeForces and Stack Overflow. Each task is adapted by modifying
the context and algorithmic patterns of the original problems, with visual
elements redrawn to ensure distinction from the source, preventing potential
data leakage. LMMs are required to complete the code solution based on the
provided visual context and a predefined Python function signature outlining
the task requirements. Every task is equipped with meticulously handcrafted
test cases to ensure a thorough and reliable evaluation of model-generated
solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering
significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1
and 36.4% pass@10, while open-weight models with 70B parameters score below 4%
pass@1. Ablation studies further reveal the limitations of current LMMs in
vision reasoning and coding capabilities. These results underscore key areas
for future research to enhance LMMs' capabilities. We have open-sourced our
code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.Summary
AI-Generated Summary