ChatPaper.aiChatPaper

Pregúntame Cualquier Tarea

Task Me Anything

June 17, 2024
Autores: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna
cs.AI

Resumen

Los puntos de referencia para los modelos de lenguaje multimodal (MLM) a gran escala ahora sirven para evaluar simultáneamente las capacidades generales de los modelos en lugar de evaluar una capacidad específica. Como resultado, cuando un desarrollador quiere identificar qué modelos utilizar para su aplicación, se ve abrumado por la cantidad de puntos de referencia y permanece inseguro sobre cuáles resultados son más representativos para su caso de uso específico. Este artículo presenta Task-Me-Anything, un motor de generación de puntos de referencia que produce un punto de referencia adaptado a las necesidades del usuario. Task-Me-Anything mantiene una taxonomía extensible de recursos visuales y puede generar programáticamente un gran número de instancias de tareas. Además, aborda algorítmicamente las consultas de los usuarios sobre el rendimiento de los MLM de manera eficiente dentro de un presupuesto computacional. Contiene 113K imágenes, 10K videos, 2K recursos de objetos 3D, más de 365 categorías de objetos, 655 atributos y 335 relaciones. Puede generar 750M pares de preguntas y respuestas de imágenes/videos, que se centran en evaluar las capacidades perceptivas de los MLM. Task-Me-Anything revela insights críticos: los MLM de código abierto sobresalen en el reconocimiento de objetos y atributos, pero carecen de comprensión espacial y temporal; cada modelo exhibe fortalezas y debilidades únicas; los modelos más grandes generalmente tienen un mejor rendimiento, aunque existen excepciones; y GPT4o demuestra desafíos en el reconocimiento de objetos en rotación/movimiento y en la distinción de colores.
English
Benchmarks for large multimodal language models (MLMs) now serve to simultaneously assess the general capabilities of models instead of evaluating for a specific capability. As a result, when a developer wants to identify which models to use for their application, they are overwhelmed by the number of benchmarks and remain uncertain about which benchmark's results are most reflective of their specific use case. This paper introduces Task-Me-Anything, a benchmark generation engine which produces a benchmark tailored to a user's needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and can programmatically generate a vast number of task instances. Additionally, it algorithmically addresses user queries regarding MLM performance efficiently within a computational budget. It contains 113K images, 10K videos, 2K 3D object assets, over 365 object categories, 655 attributes, and 335 relationships. It can generate 750M image/video question-answering pairs, which focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals critical insights: open-source MLMs excel in object and attribute recognition but lack spatial and temporal understanding; each model exhibits unique strengths and weaknesses; larger models generally perform better, though exceptions exist; and GPT4o demonstrates challenges in recognizing rotating/moving objects and distinguishing colors.

Summary

AI-Generated Summary

PDF81December 6, 2024