Reka Core、Flash、Edge:強力なマルチモーダル言語モデルシリーズReka Core, Flash, and Edge: A Series of Powerful Multimodal Language
Models
Rekaは、Core、Flash、Edgeという強力なマルチモーダル言語モデルシリーズをゼロからトレーニングして導入しました。Rekaモデルは、テキスト、画像、動画、音声の入力を処理し、推論することが可能です。本技術レポートでは、これらのモデルのトレーニングの詳細を議論し、包括的な評価結果を提供します。Reka EdgeとReka Flashは、最新の技術水準を超え、多くのより大規模なモデルを上回り、それぞれの計算クラスにおいて大きな価値を提供することを示しています。一方、最も能力が高く最大のモデルであるReka Coreは、自動評価とブラインドの人間評価の両方において、最先端のモデルに匹敵する性能を発揮します。画像質問応答ベンチマーク(例:MMMU、VQAv2)では、CoreはGPT4-Vと競合する性能を示します。また、マルチモーダルチャットでは、Coreはブラインドの第三者による人間評価セットアップにおいて、Claude 3 Opusなどの他のモデルを上回り、2番目に好まれるモデルとしてランク付けされました。テキストベンチマークでは、Coreは、確立された一連のベンチマーク(例:MMLU、GSM8K)において他の最先端モデルと競合するだけでなく、人間評価においてGPT4-0613を上回ります。動画質問応答(Perception-Test)では、CoreはGemini Ultraを上回ります。これらのモデルは、http://chat.reka.ai で本番環境に導入されています。また、厳選されていない定性的な例の展示は、http://showcase.reka.ai でご覧いただけます。