ChatPaper.aiChatPaper

Demandez-moi n'importe quelle tâche

Task Me Anything

June 17, 2024
Auteurs: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna
cs.AI

Résumé

Les benchmarks pour les grands modèles de langage multimodaux (MLM) servent désormais à évaluer simultanément les capacités générales des modèles plutôt que de se concentrer sur une compétence spécifique. Par conséquent, lorsqu'un développeur souhaite identifier les modèles à utiliser pour son application, il est submergé par le nombre de benchmarks disponibles et reste incertain quant à savoir lesquels reflètent le mieux son cas d'utilisation spécifique. Cet article présente Task-Me-Anything, un moteur de génération de benchmarks qui produit un benchmark adapté aux besoins de l'utilisateur. Task-Me-Anything maintient une taxonomie extensible d'actifs visuels et peut générer de manière programmatique un grand nombre d'instances de tâches. De plus, il traite algorithmiquement les requêtes des utilisateurs concernant les performances des MLM de manière efficace, dans le cadre d'un budget de calcul défini. Il contient 113 000 images, 10 000 vidéos, 2 000 actifs d'objets 3D, plus de 365 catégories d'objets, 655 attributs et 335 relations. Il peut générer 750 millions de paires question-réponse basées sur des images/vidéos, axées sur l'évaluation des capacités perceptives des MLM. Task-Me-Anything révèle des insights critiques : les MLM open-source excellent dans la reconnaissance d'objets et d'attributs, mais manquent de compréhension spatiale et temporelle ; chaque modèle présente des forces et des faiblesses uniques ; les modèles plus grands performent généralement mieux, bien que des exceptions existent ; et GPT4o montre des difficultés à reconnaître les objets en rotation/mouvement et à distinguer les couleurs.
English
Benchmarks for large multimodal language models (MLMs) now serve to simultaneously assess the general capabilities of models instead of evaluating for a specific capability. As a result, when a developer wants to identify which models to use for their application, they are overwhelmed by the number of benchmarks and remain uncertain about which benchmark's results are most reflective of their specific use case. This paper introduces Task-Me-Anything, a benchmark generation engine which produces a benchmark tailored to a user's needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and can programmatically generate a vast number of task instances. Additionally, it algorithmically addresses user queries regarding MLM performance efficiently within a computational budget. It contains 113K images, 10K videos, 2K 3D object assets, over 365 object categories, 655 attributes, and 335 relationships. It can generate 750M image/video question-answering pairs, which focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals critical insights: open-source MLMs excel in object and attribute recognition but lack spatial and temporal understanding; each model exhibits unique strengths and weaknesses; larger models generally perform better, though exceptions exist; and GPT4o demonstrates challenges in recognizing rotating/moving objects and distinguishing colors.

Summary

AI-Generated Summary

PDF81December 6, 2024