ChatPaper.aiChatPaper

Auf dem Weg zum multimodalen Generalisten: General-Level und General-Bench

On Path to Multimodal Generalist: General-Level and General-Bench

May 7, 2025
Autoren: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI

Zusammenfassung

Das Multimodale Große Sprachmodell (MLLM) erfährt derzeit ein rasantes Wachstum, angetrieben durch die fortgeschrittenen Fähigkeiten von LLMs. Im Gegensatz zu früheren Spezialisten entwickeln sich bestehende MLLMs hin zu einem Paradigma des Multimodalen Generalisten. Ursprünglich auf das Verständnis mehrerer Modalitäten beschränkt, haben diese Modelle Fortschritte gemacht, um nicht nur zu verstehen, sondern auch über Modalitäten hinweg zu generieren. Ihre Fähigkeiten haben sich von grob- zu feinkörniger multimodaler Wahrnehmung erweitert und von der Unterstützung begrenzter Modalitäten zu beliebigen Modalitäten. Während es viele Benchmarks gibt, um MLLMs zu bewerten, stellt sich eine kritische Frage: Können wir einfach davon ausgehen, dass eine höhere Leistung über verschiedene Aufgaben hinweg auf eine stärkere MLLM-Fähigkeit hinweist und uns näher an KI auf menschlichem Niveau bringt? Wir argumentieren, dass die Antwort nicht so einfach ist, wie sie scheint. Dieses Projekt stellt General-Level vor, ein Bewertungsrahmen, der 5-stufige Leistungs- und Allgemeinheitsniveaus von MLLMs definiert und eine Methodik bietet, um MLLMs zu vergleichen und den Fortschritt bestehender Systeme hin zu robusteren multimodalen Generalisten und letztlich hin zu AGI zu messen. Im Kern des Rahmens steht das Konzept der Synergie, das misst, ob Modelle konsistente Fähigkeiten über Verständnis und Generierung sowie über mehrere Modalitäten hinweg beibehalten. Um diese Bewertung zu unterstützen, präsentieren wir General-Bench, das ein breiteres Spektrum an Fähigkeiten, Modalitäten, Formaten und Kapazitäten umfasst, einschließlich über 700 Aufgaben und 325.800 Instanzen. Die Bewertungsergebnisse, die über 100 bestehende state-of-the-art MLLMs einbeziehen, enthüllen die Fähigkeitsrangfolge der Generalisten und heben die Herausforderungen bei der Erreichung echter KI hervor. Wir erwarten, dass dieses Projekt den Weg für zukünftige Forschung zu multimodalen Grundmodellen der nächsten Generation ebnet und eine robuste Infrastruktur bietet, um die Verwirklichung von AGI zu beschleunigen. Projektseite: https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid growth, driven by the advanced capabilities of LLMs. Unlike earlier specialists, existing MLLMs are evolving towards a Multimodal Generalist paradigm. Initially limited to understanding multiple modalities, these models have advanced to not only comprehend but also generate across modalities. Their capabilities have expanded from coarse-grained to fine-grained multimodal understanding and from supporting limited modalities to arbitrary ones. While many benchmarks exist to assess MLLMs, a critical question arises: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI? We argue that the answer is not as straightforward as it seems. This project introduces General-Level, an evaluation framework that defines 5-scale levels of MLLM performance and generality, offering a methodology to compare MLLMs and gauge the progress of existing systems towards more robust multimodal generalists and, ultimately, towards AGI. At the core of the framework is the concept of Synergy, which measures whether models maintain consistent capabilities across comprehension and generation, and across multiple modalities. To support this evaluation, we present General-Bench, which encompasses a broader spectrum of skills, modalities, formats, and capabilities, including over 700 tasks and 325,800 instances. The evaluation results that involve over 100 existing state-of-the-art MLLMs uncover the capability rankings of generalists, highlighting the challenges in reaching genuine AI. We expect this project to pave the way for future research on next-generation multimodal foundation models, providing a robust infrastructure to accelerate the realization of AGI. Project page: https://generalist.top/

Summary

AI-Generated Summary

PDF22May 8, 2025