Desafie-me com Qualquer Tarefa
Task Me Anything
June 17, 2024
Autores: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna
cs.AI
Resumo
Os benchmarks para grandes modelos de linguagem multimodal (MLMs) agora servem para avaliar simultaneamente as capacidades gerais dos modelos, em vez de focar em uma habilidade específica. Como resultado, quando um desenvolvedor deseja identificar quais modelos usar para sua aplicação, ele se vê sobrecarregado pelo número de benchmarks e permanece incerto sobre quais resultados são mais representativos para seu caso de uso específico. Este artigo apresenta o Task-Me-Anything, um mecanismo de geração de benchmarks que produz um benchmark personalizado de acordo com as necessidades do usuário. O Task-Me-Anything mantém uma taxonomia extensível de recursos visuais e pode gerar programaticamente um vasto número de instâncias de tarefas. Além disso, ele aborda algoritmicamente as consultas dos usuários sobre o desempenho dos MLMs de forma eficiente, dentro de um orçamento computacional. Ele contém 113 mil imagens, 10 mil vídeos, 2 mil recursos de objetos 3D, mais de 365 categorias de objetos, 655 atributos e 335 relacionamentos. Ele pode gerar 750 milhões de pares de perguntas e respostas com imagens/vídeos, focando na avaliação das capacidades perceptivas dos MLMs. O Task-Me-Anything revela insights críticos: os MLMs de código aberto se destacam no reconhecimento de objetos e atributos, mas carecem de compreensão espacial e temporal; cada modelo exibe pontos fortes e fracos únicos; modelos maiores geralmente têm melhor desempenho, embora existam exceções; e o GPT4o demonstra desafios ao reconhecer objetos em rotação/movimento e ao distinguir cores.
English
Benchmarks for large multimodal language models (MLMs) now serve to
simultaneously assess the general capabilities of models instead of evaluating
for a specific capability. As a result, when a developer wants to identify
which models to use for their application, they are overwhelmed by the number
of benchmarks and remain uncertain about which benchmark's results are most
reflective of their specific use case. This paper introduces Task-Me-Anything,
a benchmark generation engine which produces a benchmark tailored to a user's
needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and
can programmatically generate a vast number of task instances. Additionally, it
algorithmically addresses user queries regarding MLM performance efficiently
within a computational budget. It contains 113K images, 10K videos, 2K 3D
object assets, over 365 object categories, 655 attributes, and 335
relationships. It can generate 750M image/video question-answering pairs, which
focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals
critical insights: open-source MLMs excel in object and attribute recognition
but lack spatial and temporal understanding; each model exhibits unique
strengths and weaknesses; larger models generally perform better, though
exceptions exist; and GPT4o demonstrates challenges in recognizing
rotating/moving objects and distinguishing colors.