작업을 무엇이든 요청하세요
Task Me Anything
June 17, 2024
저자: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna
cs.AI
초록
대규모 멀티모달 언어 모델(MLM)을 위한 벤치마크는 이제 특정 능력을 평가하기보다는 모델의 전반적인 역량을 동시에 평가하는 데 사용됩니다. 그 결과, 개발자가 자신의 애플리케이션에 사용할 모델을 식별하려고 할 때, 너무 많은 벤치마크로 인해 압도당하고 특정 사용 사례에 가장 적합한 벤치마크 결과가 무엇인지 불확실해지는 상황이 발생합니다. 본 논문은 사용자의 요구에 맞춤화된 벤치마크를 생성하는 벤치마크 생성 엔진인 Task-Me-Anything을 소개합니다. Task-Me-Anything은 확장 가능한 시각 자산 분류 체계를 유지하며, 프로그래밍 방식으로 다양한 작업 인스턴스를 생성할 수 있습니다. 또한, 계산 예산 내에서 MLM 성능에 대한 사용자 질의를 효율적으로 알고리즘적으로 처리합니다. 이 엔진은 113K개의 이미지, 10K개의 비디오, 2K개의 3D 객체 자산, 365개 이상의 객체 카테고리, 655개의 속성, 그리고 335개의 관계를 포함하고 있습니다. MLM의 지각 능력을 평가하는 데 초점을 맞춘 750M개의 이미지/비디오 질문-답변 쌍을 생성할 수 있습니다. Task-Me-Anything은 중요한 통찰을 제공합니다: 오픈소스 MLM은 객체 및 속성 인식에서는 우수하지만 공간적 및 시간적 이해가 부족합니다; 각 모델은 고유한 강점과 약점을 보입니다; 더 큰 모델이 일반적으로 더 나은 성능을 보이지만 예외도 존재합니다; 그리고 GPT4o는 회전/움직이는 객체를 인식하고 색상을 구분하는 데 어려움을 겪습니다.
English
Benchmarks for large multimodal language models (MLMs) now serve to
simultaneously assess the general capabilities of models instead of evaluating
for a specific capability. As a result, when a developer wants to identify
which models to use for their application, they are overwhelmed by the number
of benchmarks and remain uncertain about which benchmark's results are most
reflective of their specific use case. This paper introduces Task-Me-Anything,
a benchmark generation engine which produces a benchmark tailored to a user's
needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and
can programmatically generate a vast number of task instances. Additionally, it
algorithmically addresses user queries regarding MLM performance efficiently
within a computational budget. It contains 113K images, 10K videos, 2K 3D
object assets, over 365 object categories, 655 attributes, and 335
relationships. It can generate 750M image/video question-answering pairs, which
focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals
critical insights: open-source MLMs excel in object and attribute recognition
but lack spatial and temporal understanding; each model exhibits unique
strengths and weaknesses; larger models generally perform better, though
exceptions exist; and GPT4o demonstrates challenges in recognizing
rotating/moving objects and distinguishing colors.Summary
AI-Generated Summary