HumanEval-V: Оценка визуального понимания и способностей к рассуждениям крупных мультимодальных моделей через кодирование задач
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
October 16, 2024
Авторы: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
cs.AI
Аннотация
Задачи на программирование были ценны для оценки Больших Языковых Моделей (LLM), поскольку они требуют понимания инструкций высокого уровня, сложного рассуждения и реализации функциональных программ - ключевых способностей для развития Искусственного Общего Интеллекта. Несмотря на прогресс в Больших Мультимодальных Моделях (LMM), которые расширяют LLM с возможностями визуального восприятия и понимания, остается заметный дефицит бенчмарков по программированию, которые строго оценивают эти модели, особенно в задачах, акцентирующих визуальное рассуждение. Для решения этого пробела мы представляем HumanEval-V, новый и легкий бенчмарк, специально разработанный для оценки визуального понимания и рассуждения LMM через генерацию кода. HumanEval-V включает 108 тщательно разработанных начальных задач на Python, происходящих из платформ, таких как CodeForces и Stack Overflow. Каждая задача адаптирована путем изменения контекста и алгоритмических шаблонов оригинальных проблем, с визуальными элементами, перерисованными для обеспечения отличия от источника и предотвращения потенциального утечки данных. LMM должны завершить решение кода на основе предоставленного визуального контекста и предопределенной сигнатуры функции Python, описывающей требования задачи. Каждая задача оснащена тщательно созданными тестовыми случаями для обеспечения тщательной и надежной оценки сгенерированных моделью решений. Мы оценили 19 современных LMM с использованием HumanEval-V, выявив значительные вызовы. Собственные модели, такие как GPT-4o, достигают лишь 13% pass@1 и 36.4% pass@10, в то время как модели с открытым весом с 70 млрд параметров набирают менее 4% pass@1. Анализ абляции дополнительно раскрывает ограничения текущих LMM в визуальном рассуждении и способностях программирования. Эти результаты подчеркивают ключевые области для будущих исследований по улучшению способностей LMM. Мы опубликовали наш код и бенчмарк на https://github.com/HumanEval-V/HumanEval-V-Benchmark.
English
Coding tasks have been valuable for evaluating Large Language Models (LLMs),
as they demand the comprehension of high-level instructions, complex reasoning,
and the implementation of functional programs -- core capabilities for
advancing Artificial General Intelligence. Despite the progress in Large
Multimodal Models (LMMs), which extend LLMs with visual perception and
understanding capabilities, there remains a notable lack of coding benchmarks
that rigorously assess these models, particularly in tasks that emphasize
visual reasoning. To address this gap, we introduce HumanEval-V, a novel and
lightweight benchmark specifically designed to evaluate LMMs' visual
understanding and reasoning capabilities through code generation. HumanEval-V
includes 108 carefully crafted, entry-level Python coding tasks derived from
platforms like CodeForces and Stack Overflow. Each task is adapted by modifying
the context and algorithmic patterns of the original problems, with visual
elements redrawn to ensure distinction from the source, preventing potential
data leakage. LMMs are required to complete the code solution based on the
provided visual context and a predefined Python function signature outlining
the task requirements. Every task is equipped with meticulously handcrafted
test cases to ensure a thorough and reliable evaluation of model-generated
solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering
significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1
and 36.4% pass@10, while open-weight models with 70B parameters score below 4%
pass@1. Ablation studies further reveal the limitations of current LMMs in
vision reasoning and coding capabilities. These results underscore key areas
for future research to enhance LMMs' capabilities. We have open-sourced our
code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.Summary
AI-Generated Summary