翻訳付きの日次キュレーションされたAI研究論文
Rekaは、Core、Flash、Edgeという強力なマルチモーダル言語モデルシリーズをゼロからトレーニングして導入しました。Rekaモデルは、テキスト、画像、動画、音声の入力を処理し、推論することが可能です。本技術レポートでは、これらのモデルのトレーニングの詳細を議論し、包括的な評価結果を提供します。Reka EdgeとReka Flashは、最新の技術水準を超え、多くのより大規模なモデルを上回り、それぞれの計算クラスにおいて大きな価値を提供することを示しています。一方、最も能力が高く最大のモデルであるReka Coreは、自動評価とブラインドの人間評価の両方において、最先端のモデルに匹敵する性能を発揮します。画像質問応答ベンチマーク(例:MMMU、VQAv2)では、CoreはGPT4-Vと競合する性能を示します。また、マルチモーダルチャットでは、Coreはブラインドの第三者による人間評価セットアップにおいて、Claude 3 Opusなどの他のモデルを上回り、2番目に好まれるモデルとしてランク付けされました。テキストベンチマークでは、Coreは、確立された一連のベンチマーク(例:MMLU、GSM8K)において他の最先端モデルと競合するだけでなく、人間評価においてGPT4-0613を上回ります。動画質問応答(Perception-Test)では、CoreはGemini Ultraを上回ります。これらのモデルは、http://chat.reka.ai で本番環境に導入されています。また、厳選されていない定性的な例の展示は、http://showcase.reka.ai でご覧いただけます。
我々は、Blinkという新しいマルチモーダル言語モデル(LLM)のベンチマークを紹介する。これは、他の評価では見られない中核的な視覚知覚能力に焦点を当てたものである。Blinkのタスクの多くは、人間が「瞬きの間に」解決できるものである(例:相対的な深度推定、視覚的対応、フォレンジックス検出、多視点推論)。しかし、これらの知覚を要するタスクは、自然言語を介した仲介に抵抗するため、現在のマルチモーダルLLMにとって大きな課題となることがわかった。Blinkは、14の古典的なコンピュータビジョンタスクを3,807の多肢選択問題に再フォーマットし、単一または複数の画像と視覚的プロンプトを組み合わせている。人間の平均正解率は95.70%であるのに対し、Blinkは既存のマルチモーダルLLMにとって驚くほど難易度が高く、最高性能のGPT-4VとGeminiでもそれぞれ51.26%と45.72%の正解率しか達成できず、ランダムな推測よりもわずか13.17%と7.63%高いだけである。これは、最近のマルチモーダルLLMにおいて、そのような知覚能力がまだ「出現」していないことを示している。我々の分析はまた、専門家のCVモデルがこれらの問題をはるかに良く解決できることを強調しており、将来の改善のための潜在的な道筋を示唆している。Blinkが、マルチモーダルLLMが人間レベルの視覚知覚に追いつくためのコミュニティの刺激となることを信じている。
クリップアートは、事前に作成されたグラフィックアート形式であり、視覚的なコンテンツを効率的に表現する便利な手段を提供します。静的なクリップアート画像を動画シーケンスに変換する従来のワークフローは、リギング、キーアニメーション、中間画作成など、多くの複雑な工程を伴い、手間と時間がかかります。最近のテキストから動画を生成する技術の進展は、この問題を解決する大きな可能性を秘めています。しかし、テキストから動画を生成するモデルを直接適用すると、クリップアート画像の視覚的な特徴を保持したり、カートゥーン風の動きを生成したりすることが難しく、満足のいくアニメーション結果が得られないことがあります。本論文では、テキストから動画を生成する事前知識を活用して、静的なクリップアート画像を高品質な動画シーケンスに変換するシステム「AniClipart」を紹介します。カートゥーン風で滑らかな動きを生成するために、まずクリップアート画像のキーポイント上にベジェ曲線を定義し、動きの正則化を行います。次に、事前学習済みのテキストから動画を生成する拡散モデルに含まれる自然な動きの知識をエンコードしたVideo Score Distillation Sampling (VSDS)損失を最適化することで、キーポイントの動きの軌跡を提供されたテキストプロンプトと整合させます。微分可能なAs-Rigid-As-Possible形状変形アルゴリズムを用いることで、変形の剛性を維持しつつ、エンドツーエンドで最適化が可能です。実験結果から、提案するAniClipartは、テキストと動画の整合性、視覚的な特徴の保持、動きの一貫性の点で、既存の画像から動画を生成するモデルを一貫して上回ることが示されています。さらに、AniClipartの汎用性を示すために、トポロジーの変化を可能にするレイヤードアニメーションなど、より多様なアニメーション形式を生成するための適応例を紹介します。
事前学習済み大規模言語モデル(LLM)を多様な下流タスク向けに指示ファインチューニングすることは、顕著な成功を収めており、学界と実務界の双方から注目を集めています。このようなファインチューニングされたLLMが人間の好みに沿うことを保証するため、RLHFやDPOといった技術が登場しています。同時に、モデルのパラメータ数を削減することへの関心も高まっています。本研究では、OpenLLaMA 3Bv2をベースモデルとして使用し、OpenBezoarファミリーモデルのファインチューニングに用いた手法を説明します。この手法では、まず、Falcon-40Bモデルのオープンで商用利用に制限のない指示ファインチューニング版を使用して、LaMini-LM、WizardLM/Evol-Instruct(databricks-dolly-15kをシードデータセットとして)、Orca(Flan Collectionをシードデータセットとして)の3つのスキームに基づいて合成指示ファインチューニングデータを生成し、GPT-4を人間の代理として使用してこれらの生成データをフィルタリングします。次に、各スキームに対して順番に、コスト効率の良いQLoRAベースの教師ありファインチューニングを実施します。得られたチェックポイントは、DPO損失を使用して最終チェックポイントを得る前に、分布シフトを最小化するためにHH-RLHFデータセットのサブセットでさらにファインチューニングされます。評価は、LM Eval Harnessのタスク/メトリクスと、Claude 2.1を使用した「LLM-as-a-judge」フレームワークによるMT-Benchで行われ、最終チェックポイント「OpenBezoar-HH-RLHF-DPO」が3Bパラメータスケールの多くのモデルを上回り、Huggingface Open LLM Leaderboardの1つのカテゴリーでトップモデルをも凌駕する性能を示すことがわかりました。我々は「OpenBezoar-SFT」、「OpenBezoar-HH-RLHF-SFT」、「OpenBezoar-HH-RLHF-DPO」のチェックポイントと生成データセットをHuggingFaceのhttps://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc で、コードベースをhttps://bitbucket.org/paladinanalytics/workspace/projects/OP で公開しています。