Auf dem Weg zum multimodalen Generalisten: General-Level und General-BenchOn Path to Multimodal Generalist: General-Level and General-Bench
Das Multimodale Große Sprachmodell (MLLM) erfährt derzeit ein rasantes Wachstum, angetrieben durch die fortgeschrittenen Fähigkeiten von LLMs. Im Gegensatz zu früheren Spezialisten entwickeln sich bestehende MLLMs hin zu einem Paradigma des Multimodalen Generalisten. Ursprünglich auf das Verständnis mehrerer Modalitäten beschränkt, haben diese Modelle Fortschritte gemacht, um nicht nur zu verstehen, sondern auch über Modalitäten hinweg zu generieren. Ihre Fähigkeiten haben sich von grob- zu feinkörniger multimodaler Wahrnehmung erweitert und von der Unterstützung begrenzter Modalitäten zu beliebigen Modalitäten. Während es viele Benchmarks gibt, um MLLMs zu bewerten, stellt sich eine kritische Frage: Können wir einfach davon ausgehen, dass eine höhere Leistung über verschiedene Aufgaben hinweg auf eine stärkere MLLM-Fähigkeit hinweist und uns näher an KI auf menschlichem Niveau bringt? Wir argumentieren, dass die Antwort nicht so einfach ist, wie sie scheint. Dieses Projekt stellt General-Level vor, ein Bewertungsrahmen, der 5-stufige Leistungs- und Allgemeinheitsniveaus von MLLMs definiert und eine Methodik bietet, um MLLMs zu vergleichen und den Fortschritt bestehender Systeme hin zu robusteren multimodalen Generalisten und letztlich hin zu AGI zu messen. Im Kern des Rahmens steht das Konzept der Synergie, das misst, ob Modelle konsistente Fähigkeiten über Verständnis und Generierung sowie über mehrere Modalitäten hinweg beibehalten. Um diese Bewertung zu unterstützen, präsentieren wir General-Bench, das ein breiteres Spektrum an Fähigkeiten, Modalitäten, Formaten und Kapazitäten umfasst, einschließlich über 700 Aufgaben und 325.800 Instanzen. Die Bewertungsergebnisse, die über 100 bestehende state-of-the-art MLLMs einbeziehen, enthüllen die Fähigkeitsrangfolge der Generalisten und heben die Herausforderungen bei der Erreichung echter KI hervor. Wir erwarten, dass dieses Projekt den Weg für zukünftige Forschung zu multimodalen Grundmodellen der nächsten Generation ebnet und eine robuste Infrastruktur bietet, um die Verwirklichung von AGI zu beschleunigen. Projektseite: https://generalist.top/