Reka Core, Flash et Edge : Une Série de Modèles de Langage Multimodaux Puissants

Résumé

Nous présentons Reka Core, Flash et Edge, une série de modèles de langage multimodaux puissants, entraînés à partir de zéro par Reka. Les modèles Reka sont capables de traiter et de raisonner à partir de textes, d'images, de vidéos et d'audios. Ce rapport technique détaille l'entraînement de certains de ces modèles et fournit des résultats d'évaluation complets. Nous montrons que Reka Edge et Reka Flash non seulement atteignent l'état de l'art, mais surpassent également de nombreux modèles beaucoup plus volumineux, offrant une valeur exceptionnelle pour leur classe de calcul. Par ailleurs, notre modèle le plus performant et le plus grand, Reka Core, se rapproche des meilleurs modèles de pointe à la fois dans les évaluations automatiques et les évaluations humaines en aveugle. Sur les benchmarks de question-réponse d'images (par exemple MMMU, VQAv2), Core se montre compétitif par rapport à GPT4-V. De plus, dans le cadre du chat multimodal, Core se classe comme le deuxième modèle le plus préféré lors d'une évaluation humaine en aveugle par un tiers, surpassant d'autres modèles tels que Claude 3 Opus. Sur les benchmarks de texte, Core non seulement rivalise avec d'autres modèles de pointe sur un ensemble de benchmarks bien établis (par exemple MMLU, GSM8K), mais surpasse également GPT4-0613 dans les évaluations humaines. Sur le benchmark de question-réponse vidéo (Perception-Test), Core surpasse Gemini Ultra. Les modèles sont déployés en production sur http://chat.reka.ai. Une vitrine d'exemples qualitatifs non sélectionnés est également disponible sur http://showcase.reka.ai.

English

We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .

Reka Core, Flash et Edge : Une Série de Modèles de Langage Multimodaux Puissants

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Résumé

Support