HumanEval-V: コーディングタスクを通じて大規模なマルチモーダルモデルの視覚理解および推論能力を評価する
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
October 16, 2024
著者: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
cs.AI
要旨
コーディングタスクは、大規模言語モデル(LLM)を評価する上で貴重なものとなっており、高レベルの指示の理解、複雑な推論、および機能プログラムの実装が求められます。これらは、人工汎用知能を推進するための中核的な能力です。大規模多モーダルモデル(LMM)の進展にもかかわらず、視覚認識と理解能力を備えたLLMを拡張するLMMには、特に視覚推論を重視するタスクに厳密にこれらのモデルを評価するためのコーディングベンチマークが不足しています。このギャップを埋めるために、私たちはHumanEval-Vを導入しました。これは、視覚理解と推論能力を評価するために特別に設計された新しい軽量ベンチマークです。HumanEval-Vには、CodeForcesやStack Overflowなどのプラットフォームから派生した、慎重に作成された入門レベルのPythonコーディングタスク108件が含まれています。各タスクは、元の問題の文脈とアルゴリズムパターンを変更して適応し、ソースとの区別を確保するために視覚要素を再描画して潜在的なデータ漏洩を防ぎます。LLMは、提供された視覚的文脈と、タスク要件を概説する事前定義されたPython関数シグネチャに基づいてコードソリューションを完成させる必要があります。各タスクには、モデル生成ソリューションの徹底的かつ信頼性の高い評価を確保するために、入念に作成されたテストケースが備えられています。HumanEval-Vを使用して19の最先端LLMを評価し、重要な課題を明らかにしました。GPT-4oなどのプロプライエタリモデルは、1位合格率がわずか13%、10位合格率が36.4%に過ぎず、700億パラメータを持つオープンウェイトモデルは1位合格率が4%未満でした。削減研究は、現在のLLMの視覚推論とコーディング能力の限界を明らかにしました。これらの結果は、LLMの能力を向上させるための将来の研究の重要な分野を強調しています。私たちは、当該コードとベンチマークをhttps://github.com/HumanEval-V/HumanEval-V-Benchmarkでオープンソース化しています。
English
Coding tasks have been valuable for evaluating Large Language Models (LLMs),
as they demand the comprehension of high-level instructions, complex reasoning,
and the implementation of functional programs -- core capabilities for
advancing Artificial General Intelligence. Despite the progress in Large
Multimodal Models (LMMs), which extend LLMs with visual perception and
understanding capabilities, there remains a notable lack of coding benchmarks
that rigorously assess these models, particularly in tasks that emphasize
visual reasoning. To address this gap, we introduce HumanEval-V, a novel and
lightweight benchmark specifically designed to evaluate LMMs' visual
understanding and reasoning capabilities through code generation. HumanEval-V
includes 108 carefully crafted, entry-level Python coding tasks derived from
platforms like CodeForces and Stack Overflow. Each task is adapted by modifying
the context and algorithmic patterns of the original problems, with visual
elements redrawn to ensure distinction from the source, preventing potential
data leakage. LMMs are required to complete the code solution based on the
provided visual context and a predefined Python function signature outlining
the task requirements. Every task is equipped with meticulously handcrafted
test cases to ensure a thorough and reliable evaluation of model-generated
solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering
significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1
and 36.4% pass@10, while open-weight models with 70B parameters score below 4%
pass@1. Ablation studies further reveal the limitations of current LMMs in
vision reasoning and coding capabilities. These results underscore key areas
for future research to enhance LMMs' capabilities. We have open-sourced our
code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.Summary
AI-Generated Summary