ChatPaper.aiChatPaper

Reka Core, Flash и Edge: серия мощных мультимодальных языковых моделей

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

April 18, 2024
Авторы: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie
cs.AI

Аннотация

Мы представляем Reka Core, Flash и Edge, серию мощных мультимодальных языковых моделей, обученных с нуля Reka. Модели Reka способны обрабатывать и рассуждать с текстом, изображениями, видео и аудиовходами. В данном техническом отчете обсуждаются детали обучения некоторых из этих моделей и предоставляются полные результаты оценки. Мы показываем, что Reka Edge и Reka Flash не только являются передовыми, но и превосходят многие гораздо более крупные модели, предоставляя значительные значения для их соответствующего класса вычислений. Тем временем наша наиболее способная и крупная модель, Reka Core, приближается к лучшим моделям на фронте как по автоматическим оценкам, так и по слепым человеческим оценкам. На бенчмарках по ответам на вопросы об изображениях (например, MMMU, VQAv2), Core конкурентоспособен с GPT4-V. Тем временем, в мультимодальном чате Core занимает второе место среди предпочтительных моделей в слепой оценке третьей стороной, превосходя другие модели, такие как Claude 3 Opus. На текстовых бенчмарках Core не только конкурентоспособен с другими фронтовыми моделями на ряде установленных бенчмарков (например, MMLU, GSM8K), но и превосходит GPT4-0613 по человеческой оценке. На бенчмарке по ответам на вопросы о видео (Perception-Test) Core превосходит Gemini Ultra. Модели отправлены в продакшн на http://chat.reka.ai. Демонстрация неотфильтрованных качественных примеров также доступна на http://showcase.reka.ai.
English
We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .

Summary

AI-Generated Summary

PDF401December 15, 2024