ChatPaper.aiChatPaper

Reka Core, Flash und Edge: Eine Serie leistungsstarker multimodaler Sprachmodelle

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

April 18, 2024
Autoren: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie
cs.AI

Zusammenfassung

Wir stellen Reka Core, Flash und Edge vor, eine Serie leistungsstarker multimodaler Sprachmodelle, die von Reka von Grund auf neu trainiert wurden. Reka-Modelle können Text-, Bild-, Video- und Audioeingaben verarbeiten und damit argumentieren. Dieser technische Bericht erörtert Einzelheiten des Trainings einiger dieser Modelle und liefert umfassende Evaluierungsergebnisse. Wir zeigen, dass Reka Edge und Reka Flash nicht nur auf dem neuesten Stand der Technik sind, sondern auch viele wesentlich größere Modelle übertreffen und übermäßige Werte für ihre jeweilige Rechenklasse liefern. In der Zwischenzeit nähert sich unser leistungsfähigstes und größtes Modell, Reka Core, den besten Frontmodelle sowohl bei automatischen Evaluierungen als auch bei blinden menschlichen Evaluierungen an. Bei Bildfragen (z. B. MMMU, VQAv2) erzielt Core wettbewerbsfähige Leistungen im Vergleich zu GPT4-V. Auf multimodalem Chat rangiert Core unter einer blinden Evaluierung durch Dritte als das zweitbeliebteste Modell und übertrifft andere Modelle wie Claude 3 Opus. Bei Textbenchmarks erzielt Core nicht nur wettbewerbsfähige Leistungen im Vergleich zu anderen Frontmodellen auf einer Reihe etablierter Benchmarks (z. B. MMLU, GSM8K), sondern übertrifft auch GPT4-0613 bei menschlicher Evaluierung. Bei der Beantwortung von Videofragen (Perception-Test) übertrifft Core Gemini Ultra. Die Modelle werden in der Produktion unter http://chat.reka.ai bereitgestellt. Eine Auswahl nicht selektierter qualitativer Beispiele finden Sie auch unter http://showcase.reka.ai.
English
We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .

Summary

AI-Generated Summary

PDF401December 15, 2024