Reka Core, Flash und Edge: Eine Serie leistungsstarker multimodaler SprachmodelleReka Core, Flash, and Edge: A Series of Powerful Multimodal Language
Models
Wir stellen Reka Core, Flash und Edge vor, eine Serie leistungsstarker multimodaler Sprachmodelle, die von Reka von Grund auf neu trainiert wurden. Reka-Modelle können Text-, Bild-, Video- und Audioeingaben verarbeiten und damit argumentieren. Dieser technische Bericht erörtert Einzelheiten des Trainings einiger dieser Modelle und liefert umfassende Evaluierungsergebnisse. Wir zeigen, dass Reka Edge und Reka Flash nicht nur auf dem neuesten Stand der Technik sind, sondern auch viele wesentlich größere Modelle übertreffen und übermäßige Werte für ihre jeweilige Rechenklasse liefern. In der Zwischenzeit nähert sich unser leistungsfähigstes und größtes Modell, Reka Core, den besten Frontmodelle sowohl bei automatischen Evaluierungen als auch bei blinden menschlichen Evaluierungen an. Bei Bildfragen (z. B. MMMU, VQAv2) erzielt Core wettbewerbsfähige Leistungen im Vergleich zu GPT4-V. Auf multimodalem Chat rangiert Core unter einer blinden Evaluierung durch Dritte als das zweitbeliebteste Modell und übertrifft andere Modelle wie Claude 3 Opus. Bei Textbenchmarks erzielt Core nicht nur wettbewerbsfähige Leistungen im Vergleich zu anderen Frontmodellen auf einer Reihe etablierter Benchmarks (z. B. MMLU, GSM8K), sondern übertrifft auch GPT4-0613 bei menschlicher Evaluierung. Bei der Beantwortung von Videofragen (Perception-Test) übertrifft Core Gemini Ultra. Die Modelle werden in der Produktion unter http://chat.reka.ai bereitgestellt. Eine Auswahl nicht selektierter qualitativer Beispiele finden Sie auch unter http://showcase.reka.ai.