Reka Core, Flash en Edge: Een reeks krachtige multimodale taalmodellen
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models
April 18, 2024
Auteurs: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie
cs.AI
Samenvatting
We introduceren Reka Core, Flash en Edge, een reeks krachtige multimodale taalmodellen die vanaf nul zijn getraind door Reka. De Reka-modellen zijn in staat om tekst, afbeeldingen, video en audio-invoer te verwerken en te redeneren. Dit technische rapport bespreekt details van de training van enkele van deze modellen en biedt uitgebreide evaluatieresultaten. We laten zien dat Reka Edge en Reka Flash niet alleen state-of-the-art zijn, maar ook veel grotere modellen overtreffen, waardoor ze een buitengewone waarde bieden voor hun respectieve rekenklasse. Ondertussen benadert ons meest capabele en grootste model, Reka Core, de beste frontier-modellen in zowel automatische evaluaties als blinde menselijke evaluaties. Op benchmarks voor beeldvragen (bijv. MMMU, VQAv2) presteert Core competitief ten opzichte van GPT4-V. Tegelijkertijd staat Core op multimodale chat gerangschikt als het op één na meest geprefereerde model onder een blinde derde-partij menselijke evaluatieopzet, waarbij het andere modellen zoals Claude 3 Opus overtreft. Op tekstbenchmarks presteert Core niet alleen competitief ten opzichte van andere frontier-modellen op een reeks goed gevestigde benchmarks (bijv. MMLU, GSM8K), maar overtreft het ook GPT4-0613 in menselijke evaluatie. Op videovragen (Perception-Test) overtreft Core Gemini Ultra. De modellen worden in productie geleverd op http://chat.reka.ai. Een showcase van niet-selectief gekozen kwalitatieve voorbeelden is ook te vinden op http://showcase.reka.ai.
English
We introduce Reka Core, Flash, and Edge, a series of powerful multimodal
language models trained from scratch by Reka. Reka models are able to process
and reason with text, images, video, and audio inputs. This technical report
discusses details of training some of these models and provides comprehensive
evaluation results. We show that Reka Edge and Reka Flash are not only
state-of-the-art but also outperform many much larger models, delivering
outsized values for their respective compute class. Meanwhile, our most capable
and largest model, Reka Core, approaches the best frontier models on both
automatic evaluations and blind human evaluations. On image question answering
benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V.
Meanwhile, on multimodal chat, Core ranks as the second most preferred model
under a blind third-party human evaluation setup, outperforming other models
such as Claude 3 Opus. On text benchmarks, Core not only performs competitively
to other frontier models on a set of well-established benchmarks (e.g. MMLU,
GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question
answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped
in production at http://chat.reka.ai . A showcase of non cherry picked
qualitative examples can also be found at http://showcase.reka.ai .