ChatPaper.aiChatPaper

Frag mich alles

Task Me Anything

June 17, 2024
Autoren: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna
cs.AI

Zusammenfassung

Benchmarks für große multimodale Sprachmodelle (MLMs) dienen nun dazu, die allgemeinen Fähigkeiten von Modellen gleichzeitig zu bewerten, anstatt eine spezifische Fähigkeit zu überprüfen. Dadurch werden Entwickler, die herausfinden möchten, welche Modelle sie für ihre Anwendung verwenden sollen, von der Vielzahl an Benchmarks überwältigt und bleiben unsicher, welche Benchmark-Ergebnisse am besten ihr spezifisches Anwendungsszenario widerspiegeln. Dieses Papier stellt Task-Me-Anything vor, eine Benchmark-Erstellungsmaschine, die eine auf die Bedürfnisse des Benutzers zugeschnittene Benchmark erstellt. Task-Me-Anything verfügt über eine erweiterbare Taxonomie visueller Assets und kann programmgesteuert eine große Anzahl von Aufgabeninstanzen generieren. Darüber hinaus beantwortet es algorithmisch Benutzeranfragen zur Leistung von MLMs effizient innerhalb eines Rechenaufwands. Es enthält 113.000 Bilder, 10.000 Videos, 2.000 3D-Objekt-Assets, über 365 Objektkategorien, 655 Attribute und 335 Beziehungen. Es kann 750 Millionen Bild-/Video-Frage-Antwort-Paare generieren, die sich auf die Bewertung der Wahrnehmungsfähigkeiten von MLMs konzentrieren. Task-Me-Anything offenbart wichtige Erkenntnisse: Open-Source-MLMs zeichnen sich in der Objekt- und Attributerkennung aus, aber es mangelt an räumlichem und zeitlichem Verständnis; jedes Modell zeigt einzigartige Stärken und Schwächen; größere Modelle erzielen im Allgemeinen bessere Leistungen, obwohl Ausnahmen existieren; und GPT4o zeigt Herausforderungen bei der Erkennung rotierender/bewegter Objekte und der Unterscheidung von Farben.
English
Benchmarks for large multimodal language models (MLMs) now serve to simultaneously assess the general capabilities of models instead of evaluating for a specific capability. As a result, when a developer wants to identify which models to use for their application, they are overwhelmed by the number of benchmarks and remain uncertain about which benchmark's results are most reflective of their specific use case. This paper introduces Task-Me-Anything, a benchmark generation engine which produces a benchmark tailored to a user's needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and can programmatically generate a vast number of task instances. Additionally, it algorithmically addresses user queries regarding MLM performance efficiently within a computational budget. It contains 113K images, 10K videos, 2K 3D object assets, over 365 object categories, 655 attributes, and 335 relationships. It can generate 750M image/video question-answering pairs, which focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals critical insights: open-source MLMs excel in object and attribute recognition but lack spatial and temporal understanding; each model exhibits unique strengths and weaknesses; larger models generally perform better, though exceptions exist; and GPT4o demonstrates challenges in recognizing rotating/moving objects and distinguishing colors.

Summary

AI-Generated Summary

PDF81December 6, 2024