Reka Core, Flash и Edge: серия мощных мультимодальных языковых моделейReka Core, Flash, and Edge: A Series of Powerful Multimodal Language
Models
Мы представляем Reka Core, Flash и Edge, серию мощных мультимодальных языковых моделей, обученных с нуля Reka. Модели Reka способны обрабатывать и рассуждать с текстом, изображениями, видео и аудиовходами. В данном техническом отчете обсуждаются детали обучения некоторых из этих моделей и предоставляются полные результаты оценки. Мы показываем, что Reka Edge и Reka Flash не только являются передовыми, но и превосходят многие гораздо более крупные модели, предоставляя значительные значения для их соответствующего класса вычислений. Тем временем наша наиболее способная и крупная модель, Reka Core, приближается к лучшим моделям на фронте как по автоматическим оценкам, так и по слепым человеческим оценкам. На бенчмарках по ответам на вопросы об изображениях (например, MMMU, VQAv2), Core конкурентоспособен с GPT4-V. Тем временем, в мультимодальном чате Core занимает второе место среди предпочтительных моделей в слепой оценке третьей стороной, превосходя другие модели, такие как Claude 3 Opus. На текстовых бенчмарках Core не только конкурентоспособен с другими фронтовыми моделями на ряде установленных бенчмарков (например, MMLU, GSM8K), но и превосходит GPT4-0613 по человеческой оценке. На бенчмарке по ответам на вопросы о видео (Perception-Test) Core превосходит Gemini Ultra. Модели отправлены в продакшн на http://chat.reka.ai. Демонстрация неотфильтрованных качественных примеров также доступна на http://showcase.reka.ai.