Reka Core, Flash y Edge: Una Serie de Potentes Modelos de Lenguaje MultimodalReka Core, Flash, and Edge: A Series of Powerful Multimodal Language
Models
Presentamos Reka Core, Flash y Edge, una serie de potentes modelos de lenguaje multimodal entrenados desde cero por Reka. Los modelos Reka son capaces de procesar y razonar con entradas de texto, imágenes, video y audio. Este informe técnico discute detalles del entrenamiento de algunos de estos modelos y proporciona resultados de evaluación exhaustivos. Demostramos que Reka Edge y Reka Flash no solo están a la vanguardia, sino que también superan a muchos modelos mucho más grandes, ofreciendo un valor desproporcionado para su clase de cómputo. Mientras tanto, nuestro modelo más capaz y grande, Reka Core, se acerca a los mejores modelos frontera tanto en evaluaciones automáticas como en evaluaciones humanas ciegas. En benchmarks de respuesta a preguntas sobre imágenes (por ejemplo, MMMU, VQAv2), Core compite de manera competitiva con GPT4-V. Además, en chat multimodal, Core se posiciona como el segundo modelo más preferido en una evaluación humana ciega realizada por terceros, superando a otros modelos como Claude 3 Opus. En benchmarks de texto, Core no solo compite de manera competitiva con otros modelos frontera en un conjunto de benchmarks bien establecidos (por ejemplo, MMLU, GSM8K), sino que también supera a GPT4-0613 en evaluación humana. En respuesta a preguntas sobre video (Perception-Test), Core supera a Gemini Ultra. Los modelos están disponibles en producción en http://chat.reka.ai. Una muestra de ejemplos cualitativos no seleccionados también se puede encontrar en http://showcase.reka.ai.