Reka Core, Flash et Edge : Une Série de Modèles de Langage Multimodaux PuissantsReka Core, Flash, and Edge: A Series of Powerful Multimodal Language
Models
Nous présentons Reka Core, Flash et Edge, une série de modèles de langage multimodaux puissants, entraînés à partir de zéro par Reka. Les modèles Reka sont capables de traiter et de raisonner à partir de textes, d'images, de vidéos et d'audios. Ce rapport technique détaille l'entraînement de certains de ces modèles et fournit des résultats d'évaluation complets. Nous montrons que Reka Edge et Reka Flash non seulement atteignent l'état de l'art, mais surpassent également de nombreux modèles beaucoup plus volumineux, offrant une valeur exceptionnelle pour leur classe de calcul. Par ailleurs, notre modèle le plus performant et le plus grand, Reka Core, se rapproche des meilleurs modèles de pointe à la fois dans les évaluations automatiques et les évaluations humaines en aveugle. Sur les benchmarks de question-réponse d'images (par exemple MMMU, VQAv2), Core se montre compétitif par rapport à GPT4-V. De plus, dans le cadre du chat multimodal, Core se classe comme le deuxième modèle le plus préféré lors d'une évaluation humaine en aveugle par un tiers, surpassant d'autres modèles tels que Claude 3 Opus. Sur les benchmarks de texte, Core non seulement rivalise avec d'autres modèles de pointe sur un ensemble de benchmarks bien établis (par exemple MMLU, GSM8K), mais surpasse également GPT4-0613 dans les évaluations humaines. Sur le benchmark de question-réponse vidéo (Perception-Test), Core surpasse Gemini Ultra. Les modèles sont déployés en production sur http://chat.reka.ai. Une vitrine d'exemples qualitatifs non sélectionnés est également disponible sur http://showcase.reka.ai.