ChatPaper.aiChatPaper

Reka Core、Flash、Edge:強力なマルチモーダル言語モデルシリーズ

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

April 18, 2024
著者: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie
cs.AI

要旨

Rekaは、Core、Flash、Edgeという強力なマルチモーダル言語モデルシリーズをゼロからトレーニングして導入しました。Rekaモデルは、テキスト、画像、動画、音声の入力を処理し、推論することが可能です。本技術レポートでは、これらのモデルのトレーニングの詳細を議論し、包括的な評価結果を提供します。Reka EdgeとReka Flashは、最新の技術水準を超え、多くのより大規模なモデルを上回り、それぞれの計算クラスにおいて大きな価値を提供することを示しています。一方、最も能力が高く最大のモデルであるReka Coreは、自動評価とブラインドの人間評価の両方において、最先端のモデルに匹敵する性能を発揮します。画像質問応答ベンチマーク(例:MMMU、VQAv2)では、CoreはGPT4-Vと競合する性能を示します。また、マルチモーダルチャットでは、Coreはブラインドの第三者による人間評価セットアップにおいて、Claude 3 Opusなどの他のモデルを上回り、2番目に好まれるモデルとしてランク付けされました。テキストベンチマークでは、Coreは、確立された一連のベンチマーク(例:MMLU、GSM8K)において他の最先端モデルと競合するだけでなく、人間評価においてGPT4-0613を上回ります。動画質問応答(Perception-Test)では、CoreはGemini Ultraを上回ります。これらのモデルは、http://chat.reka.ai で本番環境に導入されています。また、厳選されていない定性的な例の展示は、http://showcase.reka.ai でご覧いただけます。
English
We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .

Summary

AI-Generated Summary

PDF401December 15, 2024