HumanEval-V: Valutazione delle capacità di comprensione visiva e di ragionamento di modelli multimodali di grandi dimensioni attraverso compiti di codifica
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
October 16, 2024
Autori: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
cs.AI
Abstract
Le attività di codifica sono state preziose per valutare i Large Language Models (LLM), poiché richiedono la comprensione di istruzioni di alto livello, ragionamento complesso e l'implementazione di programmi funzionali - capacità fondamentali per lo sviluppo dell'Intelligenza Artificiale Generale. Nonostante i progressi nei Large Multimodal Models (LMM), che estendono i LLM con capacità di percezione e comprensione visiva, permane una notevole mancanza di benchmark di codifica che valutino rigorosamente questi modelli, in particolare in compiti che enfatizzano il ragionamento visivo. Per affrontare questa lacuna, presentiamo HumanEval-V, un benchmark innovativo e leggero progettato specificamente per valutare le capacità di comprensione e ragionamento visivo dei LMM attraverso la generazione di codice. HumanEval-V include 108 attività di codifica in Python di livello base, accuratamente create, derivate da piattaforme come CodeForces e Stack Overflow. Ogni attività è adattata modificando il contesto e i pattern algoritmici dei problemi originali, con elementi visivi ridisegnati per garantire distinzione dalla fonte, prevenendo potenziali fughe di dati. I LMM devono completare la soluzione del codice basandosi sul contesto visivo fornito e su una firma di funzione Python predefinita che descrive i requisiti dell'attività. Ogni attività è dotata di casi di test meticolosamente creati per garantire una valutazione accurata e affidabile delle soluzioni generate dal modello. Valutiamo 19 LMM all'avanguardia utilizzando HumanEval-V, rivelando significativi ostacoli. Modelli proprietari come GPT-4o raggiungono solo il 13% di successo@1 e il 36,4% di successo@10, mentre modelli open-weight con 70 miliardi di parametri ottengono meno del 4% di successo@1. Studi di ablation rivelano ulteriormente i limiti attuali dei LMM nel ragionamento visivo e nelle capacità di codifica. Questi risultati sottolineano aree chiave per futuri studi volti a potenziare le capacità dei LMM. Abbiamo reso open source il nostro codice e il benchmark su https://github.com/HumanEval-V/HumanEval-V-Benchmark.
English
Coding tasks have been valuable for evaluating Large Language Models (LLMs),
as they demand the comprehension of high-level instructions, complex reasoning,
and the implementation of functional programs -- core capabilities for
advancing Artificial General Intelligence. Despite the progress in Large
Multimodal Models (LMMs), which extend LLMs with visual perception and
understanding capabilities, there remains a notable lack of coding benchmarks
that rigorously assess these models, particularly in tasks that emphasize
visual reasoning. To address this gap, we introduce HumanEval-V, a novel and
lightweight benchmark specifically designed to evaluate LMMs' visual
understanding and reasoning capabilities through code generation. HumanEval-V
includes 108 carefully crafted, entry-level Python coding tasks derived from
platforms like CodeForces and Stack Overflow. Each task is adapted by modifying
the context and algorithmic patterns of the original problems, with visual
elements redrawn to ensure distinction from the source, preventing potential
data leakage. LMMs are required to complete the code solution based on the
provided visual context and a predefined Python function signature outlining
the task requirements. Every task is equipped with meticulously handcrafted
test cases to ensure a thorough and reliable evaluation of model-generated
solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering
significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1
and 36.4% pass@10, while open-weight models with 70B parameters score below 4%
pass@1. Ablation studies further reveal the limitations of current LMMs in
vision reasoning and coding capabilities. These results underscore key areas
for future research to enhance LMMs' capabilities. We have open-sourced our
code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.Summary
AI-Generated Summary