Sur la voie vers un généraliste multimodal : Niveau général et banc d'essai généralOn Path to Multimodal Generalist: General-Level and General-Bench
Le modèle de langage multimodal de grande envergure (MLLM) connaît actuellement une croissance rapide, portée par les capacités avancées des LLM. Contrairement aux spécialistes antérieurs, les MLLM existants évoluent vers un paradigme de généraliste multimodal. Initialement limités à la compréhension de multiples modalités, ces modèles ont progressé pour non seulement comprendre mais aussi générer des contenus à travers les modalités. Leurs capacités se sont étendues, passant d'une compréhension multimodale grossière à fine, et de la prise en charge de modalités limitées à des modalités arbitraires. Bien que de nombreux benchmarks existent pour évaluer les MLLM, une question cruciale se pose : pouvons-nous simplement supposer qu'une performance supérieure à travers les tâches indique une capacité MLLM plus forte, nous rapprochant ainsi d'une IA de niveau humain ? Nous soutenons que la réponse n'est pas aussi simple qu'il y paraît. Ce projet introduit General-Level, un cadre d'évaluation qui définit 5 niveaux d'échelle de performance et de généralité des MLLM, offrant une méthodologie pour comparer les MLLM et mesurer les progrès des systèmes existants vers des généralistes multimodaux plus robustes et, finalement, vers l'AGI. Au cœur de ce cadre se trouve le concept de Synergie, qui mesure si les modèles maintiennent des capacités cohérentes à travers la compréhension et la génération, et à travers plusieurs modalités. Pour soutenir cette évaluation, nous présentons General-Bench, qui englobe un spectre plus large de compétences, modalités, formats et capacités, incluant plus de 700 tâches et 325 800 instances. Les résultats d'évaluation impliquant plus de 100 MLLM de pointe existants révèlent les classements de capacité des généralistes, mettant en lumière les défis pour atteindre une véritable IA. Nous espérons que ce projet ouvrira la voie à des recherches futures sur les modèles de fondation multimodaux de nouvelle génération, fournissant une infrastructure robuste pour accélérer la réalisation de l'AGI. Page du projet : https://generalist.top/