HumanEval-V : Évaluation des capacités de compréhension visuelle et de raisonnement des grands modèles multimodaux à travers des tâches de codage
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
October 16, 2024
Auteurs: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
cs.AI
Résumé
Les tâches de codage se sont révélées précieuses pour évaluer les Grands Modèles de Langage (GML), car elles exigent la compréhension d'instructions de haut niveau, un raisonnement complexe et la mise en œuvre de programmes fonctionnels - des capacités essentielles pour faire progresser l'Intelligence Artificielle Générale. Malgré les progrès réalisés dans les Grands Modèles Multimodaux (GMM), qui étendent les GML avec des capacités de perception et de compréhension visuelles, il existe encore un manque notable de référentiels de codage qui évaluent rigoureusement ces modèles, en particulier dans des tâches mettant l'accent sur le raisonnement visuel. Pour combler cette lacune, nous présentons HumanEval-V, un nouveau référentiel léger spécifiquement conçu pour évaluer les capacités de compréhension et de raisonnement visuel des GMM grâce à la génération de code. HumanEval-V comprend 108 tâches de codage Python de niveau débutant soigneusement élaborées, issues de plateformes telles que CodeForces et Stack Overflow. Chaque tâche est adaptée en modifiant le contexte et les schémas algorithmiques des problèmes originaux, les éléments visuels étant redessinés pour garantir une distinction par rapport à la source, empêchant toute fuite de données potentielle. Les GMM doivent compléter la solution de code en fonction du contexte visuel fourni et d'une signature de fonction Python prédéfinie décrivant les exigences de la tâche. Chaque tâche est équipée de cas de test méticuleusement élaborés pour garantir une évaluation approfondie et fiable des solutions générées par le modèle. Nous évaluons 19 GML de pointe en utilisant HumanEval-V, révélant des défis significatifs. Des modèles propriétaires comme GPT-4o n'atteignent que 13% de réussite@1 et 36,4% de réussite@10, tandis que des modèles à poids ouvert avec 70 milliards de paramètres obtiennent moins de 4% de réussite@1. Des études d'ablation révèlent en outre les limites des GML actuels en matière de raisonnement visuel et de capacités de codage. Ces résultats soulignent des domaines clés pour des recherches futures visant à améliorer les capacités des GML. Nous avons rendu notre code et notre référentiel open-source à l'adresse https://github.com/HumanEval-V/HumanEval-V-Benchmark.
English
Coding tasks have been valuable for evaluating Large Language Models (LLMs),
as they demand the comprehension of high-level instructions, complex reasoning,
and the implementation of functional programs -- core capabilities for
advancing Artificial General Intelligence. Despite the progress in Large
Multimodal Models (LMMs), which extend LLMs with visual perception and
understanding capabilities, there remains a notable lack of coding benchmarks
that rigorously assess these models, particularly in tasks that emphasize
visual reasoning. To address this gap, we introduce HumanEval-V, a novel and
lightweight benchmark specifically designed to evaluate LMMs' visual
understanding and reasoning capabilities through code generation. HumanEval-V
includes 108 carefully crafted, entry-level Python coding tasks derived from
platforms like CodeForces and Stack Overflow. Each task is adapted by modifying
the context and algorithmic patterns of the original problems, with visual
elements redrawn to ensure distinction from the source, preventing potential
data leakage. LMMs are required to complete the code solution based on the
provided visual context and a predefined Python function signature outlining
the task requirements. Every task is equipped with meticulously handcrafted
test cases to ensure a thorough and reliable evaluation of model-generated
solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering
significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1
and 36.4% pass@10, while open-weight models with 70B parameters score below 4%
pass@1. Ablation studies further reveal the limitations of current LMMs in
vision reasoning and coding capabilities. These results underscore key areas
for future research to enhance LMMs' capabilities. We have open-sourced our
code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.Summary
AI-Generated Summary