HumanEval-V: Evaluierung der visuellen Verständnis- und Denkfähigkeiten großer multimodaler Modelle durch Kodierungsaufgaben
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
October 16, 2024
Autoren: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
cs.AI
Zusammenfassung
Das Codieren von Aufgaben war wertvoll für die Bewertung von Large Language Models (LLMs), da sie das Verständnis von hochrangigen Anweisungen, komplexe Schlussfolgerungen und die Implementierung funktionaler Programme erfordern - Kernkompetenzen zur Förderung der Künstlichen Allgemeinen Intelligenz. Trotz des Fortschritts bei Large Multimodal Models (LMMs), die LLMs um visuelle Wahrnehmungs- und Verständnisfähigkeiten erweitern, besteht weiterhin ein bemerkenswerter Mangel an Codierungs-Benchmarks, die diese Modelle rigoros bewerten, insbesondere in Aufgaben, die visuelle Schlussfolgerungen betonen. Um diese Lücke zu schließen, stellen wir HumanEval-V vor, einen neuartigen und leichtgewichtigen Benchmark, der speziell entwickelt wurde, um die visuelle Verständnis- und Schlussfolgerungsfähigkeiten von LMMs durch Codegenerierung zu bewerten. HumanEval-V umfasst 108 sorgfältig ausgearbeitete, Einsteiger-Python-Codierungsaufgaben, die von Plattformen wie CodeForces und Stack Overflow abgeleitet sind. Jede Aufgabe wird durch Anpassung des Kontexts und der algorithmischen Muster der ursprünglichen Probleme angepasst, wobei visuelle Elemente neu gezeichnet werden, um eine Unterscheidung von der Quelle sicherzustellen und potenzielle Datenlecks zu verhindern. LMMs müssen die Code-Lösung basierend auf dem bereitgestellten visuellen Kontext und einer vordefinierten Python-Funktions-Signatur, die die Aufgabenanforderungen umreißt, vervollständigen. Jede Aufgabe ist mit sorgfältig handgefertigten Testfällen ausgestattet, um eine gründliche und zuverlässige Bewertung der vom Modell generierten Lösungen sicherzustellen. Wir evaluieren 19 hochmoderne LMMs mit HumanEval-V und decken signifikante Herausforderungen auf. Proprietäre Modelle wie GPT-4o erreichen nur 13% pass@1 und 36,4% pass@10, während Open-Weight-Modelle mit 70 Milliarden Parametern unter 4% pass@1 erzielen. Ablationsstudien zeigen weiterhin die Grenzen der aktuellen LMMs in der visuellen Schlussfolgerung und den Codierungsfähigkeiten auf. Diese Ergebnisse unterstreichen Schlüsselbereiche für zukünftige Forschung zur Verbesserung der Fähigkeiten von LMMs. Wir haben unseren Code und Benchmark unter https://github.com/HumanEval-V/HumanEval-V-Benchmark Open Source zur Verfügung gestellt.
English
Coding tasks have been valuable for evaluating Large Language Models (LLMs),
as they demand the comprehension of high-level instructions, complex reasoning,
and the implementation of functional programs -- core capabilities for
advancing Artificial General Intelligence. Despite the progress in Large
Multimodal Models (LMMs), which extend LLMs with visual perception and
understanding capabilities, there remains a notable lack of coding benchmarks
that rigorously assess these models, particularly in tasks that emphasize
visual reasoning. To address this gap, we introduce HumanEval-V, a novel and
lightweight benchmark specifically designed to evaluate LMMs' visual
understanding and reasoning capabilities through code generation. HumanEval-V
includes 108 carefully crafted, entry-level Python coding tasks derived from
platforms like CodeForces and Stack Overflow. Each task is adapted by modifying
the context and algorithmic patterns of the original problems, with visual
elements redrawn to ensure distinction from the source, preventing potential
data leakage. LMMs are required to complete the code solution based on the
provided visual context and a predefined Python function signature outlining
the task requirements. Every task is equipped with meticulously handcrafted
test cases to ensure a thorough and reliable evaluation of model-generated
solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering
significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1
and 36.4% pass@10, while open-weight models with 70B parameters score below 4%
pass@1. Ablation studies further reveal the limitations of current LMMs in
vision reasoning and coding capabilities. These results underscore key areas
for future research to enhance LMMs' capabilities. We have open-sourced our
code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.Summary
AI-Generated Summary