Reka Core, Flash et Edge : Une Série de Modèles de Langage Multimodaux Puissants
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models
April 18, 2024
Auteurs: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie
cs.AI
Résumé
Nous présentons Reka Core, Flash et Edge, une série de modèles de langage multimodaux puissants, entraînés à partir de zéro par Reka. Les modèles Reka sont capables de traiter et de raisonner à partir de textes, d'images, de vidéos et d'audios. Ce rapport technique détaille l'entraînement de certains de ces modèles et fournit des résultats d'évaluation complets. Nous montrons que Reka Edge et Reka Flash non seulement atteignent l'état de l'art, mais surpassent également de nombreux modèles beaucoup plus volumineux, offrant une valeur exceptionnelle pour leur classe de calcul. Par ailleurs, notre modèle le plus performant et le plus grand, Reka Core, se rapproche des meilleurs modèles de pointe à la fois dans les évaluations automatiques et les évaluations humaines en aveugle. Sur les benchmarks de question-réponse d'images (par exemple MMMU, VQAv2), Core se montre compétitif par rapport à GPT4-V. De plus, dans le cadre du chat multimodal, Core se classe comme le deuxième modèle le plus préféré lors d'une évaluation humaine en aveugle par un tiers, surpassant d'autres modèles tels que Claude 3 Opus. Sur les benchmarks de texte, Core non seulement rivalise avec d'autres modèles de pointe sur un ensemble de benchmarks bien établis (par exemple MMLU, GSM8K), mais surpasse également GPT4-0613 dans les évaluations humaines. Sur le benchmark de question-réponse vidéo (Perception-Test), Core surpasse Gemini Ultra. Les modèles sont déployés en production sur http://chat.reka.ai. Une vitrine d'exemples qualitatifs non sélectionnés est également disponible sur http://showcase.reka.ai.
English
We introduce Reka Core, Flash, and Edge, a series of powerful multimodal
language models trained from scratch by Reka. Reka models are able to process
and reason with text, images, video, and audio inputs. This technical report
discusses details of training some of these models and provides comprehensive
evaluation results. We show that Reka Edge and Reka Flash are not only
state-of-the-art but also outperform many much larger models, delivering
outsized values for their respective compute class. Meanwhile, our most capable
and largest model, Reka Core, approaches the best frontier models on both
automatic evaluations and blind human evaluations. On image question answering
benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V.
Meanwhile, on multimodal chat, Core ranks as the second most preferred model
under a blind third-party human evaluation setup, outperforming other models
such as Claude 3 Opus. On text benchmarks, Core not only performs competitively
to other frontier models on a set of well-established benchmarks (e.g. MMLU,
GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question
answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped
in production at http://chat.reka.ai . A showcase of non cherry picked
qualitative examples can also be found at http://showcase.reka.ai .Summary
AI-Generated Summary