Reka Core, Flash y Edge: Una Serie de Potentes Modelos de Lenguaje Multimodal

Resumen

Presentamos Reka Core, Flash y Edge, una serie de potentes modelos de lenguaje multimodal entrenados desde cero por Reka. Los modelos Reka son capaces de procesar y razonar con entradas de texto, imágenes, video y audio. Este informe técnico discute detalles del entrenamiento de algunos de estos modelos y proporciona resultados de evaluación exhaustivos. Demostramos que Reka Edge y Reka Flash no solo están a la vanguardia, sino que también superan a muchos modelos mucho más grandes, ofreciendo un valor desproporcionado para su clase de cómputo. Mientras tanto, nuestro modelo más capaz y grande, Reka Core, se acerca a los mejores modelos frontera tanto en evaluaciones automáticas como en evaluaciones humanas ciegas. En benchmarks de respuesta a preguntas sobre imágenes (por ejemplo, MMMU, VQAv2), Core compite de manera competitiva con GPT4-V. Además, en chat multimodal, Core se posiciona como el segundo modelo más preferido en una evaluación humana ciega realizada por terceros, superando a otros modelos como Claude 3 Opus. En benchmarks de texto, Core no solo compite de manera competitiva con otros modelos frontera en un conjunto de benchmarks bien establecidos (por ejemplo, MMLU, GSM8K), sino que también supera a GPT4-0613 en evaluación humana. En respuesta a preguntas sobre video (Perception-Test), Core supera a Gemini Ultra. Los modelos están disponibles en producción en http://chat.reka.ai. Una muestra de ejemplos cualitativos no seleccionados también se puede encontrar en http://showcase.reka.ai.

English

We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .

Reka Core, Flash y Edge: Una Serie de Potentes Modelos de Lenguaje Multimodal

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Resumen

Support