翻訳付きの日次キュレーションされたAI研究論文
本論文ではDepth Anything V2を紹介する。派手な技術を追求するのではなく、強力な単眼深度推定モデルを構築するための重要な知見を明らかにすることを目指している。特にV1と比較して、このバージョンでは以下の3つの主要な実践を通じて、より精細でロバストな深度予測を実現している:1) ラベル付き実画像を全て合成画像に置き換える、2) 教師モデルの容量をスケールアップする、3) 大規模な擬似ラベル付き実画像を橋渡しとして学生モデルを指導する。Stable Diffusionに基づいて構築された最新のモデルと比較して、我々のモデルは大幅に効率的(10倍以上高速)で、かつ精度も高い。様々なシナリオをサポートするため、異なるスケールのモデル(25Mから1.3Bパラメータまで)を提供する。それらの強力な汎化能力を活かし、メトリック深度ラベルでファインチューニングを行い、メトリック深度モデルを取得する。我々のモデルに加えて、現在のテストセットの多様性の不足と頻繁なノイズを考慮し、正確なアノテーションと多様なシーンを持つ汎用的な評価ベンチマークを構築し、今後の研究を促進する。
本研究は新たな手法を提案するものではありません。その代わりに、現代のコンピュータビジョンアーキテクチャにおける帰納的バイアス、特に局所性の必要性に疑問を投げかける興味深い発見を提示します。具体的には、バニラTransformerが各ピクセルを直接トークンとして扱うことで、非常に高い性能を発揮できることを明らかにしました。これは、Vision Transformerで一般的な設計(例えば、各16x16パッチをトークンとして扱うなど)がConvNetsから継承した局所近傍への帰納的バイアスを維持していることとは大きく異なります。我々は主に、ピクセルをトークンとして扱うアプローチの有効性を、コンピュータビジョンにおける3つのよく研究されたタスク(物体分類のための教師あり学習、マスク付きオートエンコーディングによる自己教師あり学習、拡散モデルを用いた画像生成)を通じて示します。個々のピクセルを直接操作することは計算的には実用的ではありませんが、次世代のコンピュータビジョン向けニューラルアーキテクチャを考案する際に、この驚くべき知見をコミュニティが認識すべきであると考えています。
Transformerは、そのシンプルでありながら効果的なアーキテクチャにより、機械学習に革命をもたらしました。インターネット上の大規模なテキストデータセットでTransformerを事前学習させることで、自然言語理解(NLU)タスクにおいて比類のない汎化性能が実現されました。しかし、計算が正確かつロバストでなければならないアルゴリズム的な推論を必要とするタスクにおいては、このような言語モデルは依然として脆弱です。この制約に対処するため、我々はTransformerの言語理解能力と、グラフニューラルネットワーク(GNN)ベースのニューラルアルゴリズム推論器(NAR)のロバスト性を組み合わせた新しいアプローチを提案します。このようなNARは、グラフ形式で指定されたアルゴリズムタスクに対する汎用ソルバーとして有効であることが証明されています。Transformerがこれらの埋め込みにアクセスできるようにするため、2段階のトレーニング手順を備えたハイブリッドアーキテクチャを提案し、言語モデルのトークンがNARのノード埋め込みにクロスアテンションを適用できるようにします。我々は、提案するTransNARモデルをテキストベースのCLRS-30ベンチマークであるCLRS-Textで評価し、アルゴリズム推論において、分布内および分布外の両方で、Transformerのみのモデルを大幅に上回る性能を示しました。
インターネット規模の視覚言語データと多様なロボットデモンストレーションを組み合わせて事前学習された大規模ポリシーは、ロボットに新しいスキルを教える方法を変える可能性があります。つまり、新しい動作をゼロから訓練するのではなく、そのような視覚言語行動(VLA)モデルを微調整することで、視覚運動制御のための堅牢で汎用性の高いポリシーを得ることができます。しかし、ロボティクスにおけるVLAの普及は困難でした。その理由は、1)既存のVLAはほとんどがクローズドで一般にアクセスできないこと、2)新しいタスクのためにVLAを効率的に微調整する方法がこれまでの研究で十分に探求されていないことです。これらの課題に対処するため、970,000件の実世界のロボットデモンストレーションの多様なコレクションで訓練された7BパラメータのオープンソースVLAであるOpenVLAを紹介します。OpenVLAは、Llama 2言語モデルを基盤とし、DINOv2とSigLIPから事前学習された特徴を融合する視覚エンコーダを組み合わせています。追加されたデータの多様性と新しいモデルコンポーネントの結果として、OpenVLAは汎用マニピュレーションにおいて強力な結果を示し、29のタスクと複数のロボット実装において、RT-2-X(55B)などのクローズドモデルを16.5%上回る絶対タスク成功率を達成し、パラメータ数は7分の1です。さらに、新しい設定に対してOpenVLAを効果的に微調整できることを示し、特に複数のオブジェクトを含むマルチタスク環境での汎化結果と強力な言語接地能力において、Diffusion Policyなどのゼロからの模倣学習手法を20.4%上回ります。また、計算効率についても探求し、OpenVLAが現代の低ランク適応手法を介してコンシューマーGPUで微調整でき、量子化を介して効率的に提供されても下流の成功率に影響がないことを示します。最後に、モデルチェックポイント、微調整ノートブック、およびOpen X-Embodimentデータセットでの大規模なVLA訓練をサポートするPyTorchコードベースを公開します。
無限のコンテキスト長を持つシーケンスを効率的にモデル化することは、長年にわたる課題でした。これまでの研究では、二次的な計算複雑性や、長さの一般化における限定的な外挿能力といった問題に悩まされてきました。本論文では、選択的な状態空間モデル(SSM)であるMambaと、スライディングウィンドウアテンション(SWA)を層ごとに組み合わせた、シンプルなハイブリッドアーキテクチャであるSambaを提案します。Sambaは、与えられたシーケンスをリカレントな隠れ状態に選択的に圧縮しながらも、アテンションメカニズムを用いて正確に記憶を呼び出す能力を維持します。3.8Bのパラメータと3.2TのトレーニングトークンでSambaをスケールアップし、純粋なアテンションやSSMに基づく最新のモデルを幅広いベンチマークで大幅に上回る性能を示します。4K長のシーケンスでトレーニングされたSambaは、256Kのコンテキスト長に効率的に外挿され、完全な記憶呼び出しを実現し、1Mのコンテキスト長までトークン予測が改善されます。線形時間シーケンスモデルとして、Sambaは128K長のユーザープロンプトを処理する際に、グループ化クエリアテンションを備えたTransformerと比較して3.73倍のスループットを享受し、64Kトークンを無制限のストリーミングで生成する際には3.64倍の高速化を実現します。Sambaのサンプル実装はhttps://github.com/microsoft/Sambaで公開されています。
本論文では、新たなマルチ解像度ネットワークと時間依存型レイヤー正規化を統合することで、拡散モデルに革新的な改良を加えることを提案します。拡散モデルは、高忠実度の画像生成においてその有効性が注目されています。従来のアプローチでは畳み込みU-Netアーキテクチャが用いられてきましたが、最近ではTransformerベースの設計が優れた性能とスケーラビリティを示しています。しかし、Transformerアーキテクチャは入力データをトークン化(「パッチ化」)するため、トークン長に対する自己注意機構の二次的な計算複雑性により、視覚的忠実度と計算効率の間でトレードオフに直面しています。大きなパッチサイズは注意計算の効率化を可能にしますが、細かい視覚的詳細を捉えることが難しく、画像の歪みを引き起こします。この課題に対処するため、我々は拡散モデルにマルチ解像度ネットワーク(DiMR)を組み込むことを提案します。DiMRは、複数の解像度にわたって特徴を洗練し、低解像度から高解像度へと段階的に詳細を向上させるフレームワークです。さらに、時間依存型レイヤー正規化(TD-LN)を導入します。これは、時間情報を注入し優れた性能を達成するために、レイヤー正規化に時間依存のパラメータを組み込むパラメータ効率の良いアプローチです。我々の手法の有効性は、クラス条件付きImageNet生成ベンチマークで実証され、DiMR-XLバリアントは従来の拡散モデルを上回り、ImageNet 256 x 256で1.70、ImageNet 512 x 512で2.89という新たな最先端のFIDスコアを達成しました。プロジェクトページ: https://qihao067.github.io/projects/DiMR
大規模言語モデル(LLM)は、驚くべき推論能力を示しているものの、特に複雑な時間論理を含む時間的推論タスクにおいては、依然としてエラーが発生しやすい。既存の研究では、多様なデータセットとベンチマークを用いて、LLMの時間的推論性能を探求してきた。しかし、これらの研究は、LLMが事前学習中に遭遇した可能性のある実世界のデータに依存しているか、あるいは事実の不整合を意図せずに導入してしまう匿名化技術を採用していることが多い。本研究では、これらの制約を克服するため、LLMの時間的推論能力を様々なシナリオで評価するために特別に設計された新しい合成データセットを導入する。これらのデータセットに含まれる多様な質問タイプにより、問題の構造、サイズ、質問タイプ、事実の順序、その他の要因がLLMの性能に与える影響を体系的に調査することが可能となる。我々の知見は、現在のLLMが時間的推論タスクにおいて持つ強みと弱みに関する貴重な洞察を提供する。この分野のさらなる研究を促進するため、我々は実験で使用したデータセットと評価フレームワークをオープンソースとして公開する:https://huggingface.co/datasets/baharef/ToT。
Diffusion Transformers (DiT)は画像および動画生成において優れた性能を発揮しますが、セルフアテンションの二次的な計算複雑性により計算上の課題に直面しています。本研究では、DiTの計算ボトルネックを軽減するための新しいポストトレーニング圧縮手法であるDiTFastAttnを提案します。DiTの推論過程におけるアテンション計算には、以下の3つの主要な冗長性が存在することを特定しました:1. 空間的冗長性 - 多くのアテンションヘッドが局所的な情報に集中している、2. 時間的冗長性 - 隣接するステップ間のアテンション出力が高い類似性を示す、3. 条件的冗長性 - 条件付き推論と無条件推論の間に顕著な類似性が存在する。これらの冗長性に対処するため、以下の3つの技術を提案します:1. 空間的冗長性を低減するためのWindow Attention with Residual Caching、2. ステップ間の類似性を活用するTemporal Similarity Reduction、3. 条件付き生成における冗長な計算をスキップするConditional Redundancy Elimination。DiTFastAttnの有効性を実証するため、画像生成タスクにおけるDiTとPixArt-Sigma、および動画生成タスクにおけるOpenSoraに適用しました。評価結果は、画像生成において最大88%のFLOPsを削減し、高解像度生成では最大1.6倍の高速化を達成したことを示しています。
人間は推論を助けるために描画を行います:幾何学の問題を解く際に補助線を引いたり、地図上で推論する際に印をつけたり丸で囲んだり、スケッチを使ってアイデアを広げたり、限られたワーキングメモリの負担を軽減したりします。しかし、現在のマルチモーダル言語モデル(LM)には、そのような行動が欠けています。現在の連鎖思考(chain-of-thought)やツール使用のパラダイムでは、中間的な推論ステップとしてテキストのみを使用しています。本研究では、マルチモーダルLMに視覚的なスケッチパッドとその上に描画するためのツールを提供するフレームワーク「Sketchpad」を紹介します。LMは、自身が描いた視覚的なアーティファクトに基づいて計画と推論を行います。従来の研究とは異なり、テキストから画像を生成するモデルを使ってLMに描画させるのではなく、SketchpadはLMに線やボックス、マークなどを描かせることで、人間のスケッチに近づけ、推論をより効果的に支援します。Sketchpadはまた、スケッチングプロセス中に専門的な視覚モデルを使用することもできます(例えば、物体検出モデルでバウンディングボックスを描いたり、セグメンテーションモデルでマスクを描いたり)。これにより、視覚的知覚と推論がさらに強化されます。私たちは、数学タスク(幾何学、関数、グラフ、チェスを含む)や複雑な視覚推論タスクを幅広く実験しました。Sketchpadは、スケッチングを行わない強力なベースモデルと比較して、すべてのタスクでパフォーマンスを大幅に向上させ、数学タスクでは平均12.7%、視覚タスクでは8.6%の向上をもたらしました。Sketchpadを搭載したGPT-4oは、V*Bench(80.3%)、BLINK空間推論(83.9%)、視覚的対応(80.8%)を含むすべてのタスクで新たな最先端を達成しました。すべてのコードとデータはhttps://visualsketchpad.github.io/にあります。
大規模なカスタマイズされた拡散モデルの集合が張る重み空間を調査します。この空間を、異なる人物の視覚的アイデンティティを挿入するためにファインチューニングされた6万以上のモデルからなるデータセットで構築します。これらの重みの基盤となる多様体を部分空間としてモデル化し、これをweights2weightsと呼びます。この空間の即時的な応用として、サンプリング、編集、反転の3つを実証します。まず、空間内の各点がアイデンティティに対応するため、そこから重みをサンプリングすることで新たなアイデンティティをエンコードしたモデルが得られます。次に、この空間内の線形方向がアイデンティティの意味的編集(例:ひげを追加する)に対応することを発見します。これらの編集は生成されたサンプル間で外観が持続します。最後に、単一の画像をこの空間に反転させることで、入力画像が分布外(例:絵画)であっても現実的なアイデンティティを再構築できることを示します。我々の結果は、ファインチューニングされた拡散モデルの重み空間が、解釈可能なアイデンティティの潜在空間として振る舞うことを示唆しています。
私たちは、マルチモーダルLLMの堅牢な複数画像理解能力に焦点を当てた包括的なベンチマークであるMuirBenchを紹介します。MuirBenchは、シーン理解や順序付けなど12の多様な複数画像タスクで構成され、多視点や時間的関係など10のカテゴリーの複数画像関係を含んでいます。11,264枚の画像と2,600の多肢選択問題から成るMuirBenchは、信頼性の高い評価を行うために、各標準インスタンスと意味的に最小限の違いしかない未回答可能なバリアントをペアにして作成されています。最近の20のマルチモーダルLLMを評価した結果、GPT-4oやGemini Proのような最高性能のモデルでさえMuirBenchを解くのが難しく、それぞれ68.0%と49.3%の精度しか達成できませんでした。単一画像でトレーニングされたオープンソースのマルチモーダルLLMは、複数画像の問題にほとんど一般化できず、精度は33.3%を下回っています。これらの結果は、MuirBenchが単一画像を超えて見ることができるマルチモーダルLLMの開発をコミュニティに促す重要性を示しており、将来の改善のための潜在的な道筋を示唆しています。
高品質な選好データセットは、人間の選好に沿った高品質な応答を生成するために大規模言語モデル(LLM)を効果的に導く報酬モデルを訓練するために不可欠です。LLMがより強力になり、より適切に調整されるにつれて、Open Assistant、HH-RLHF、HelpSteerなどの許諾ライセンスの選好データセットは、報酬モデリングにおいて効果を維持するために更新される必要があります。GPT-4のようなプロプライエタリなLLMから選好データを蒸留する方法は、モデル提供者によって商業利用に制限が課されています。生成された応答と属性ラベリングの品質の両方を改善するために、私たちは許諾ライセンスの選好データセット(CC-BY-4.0)であるHelpSteer2をリリースしました。HelpSteer2で訓練された強力な内部ベースモデルを使用して、2024年6月12日時点でReward-Benchの主要データセットにおいてSOTAスコア(92.0%)を達成し、現在リストされているオープンおよびプロプライエタリなモデルを上回りました。特に、HelpSteer2はわずか1万の応答ペアで構成されており、既存の選好データセット(例:HH-RLHF)よりも桁違いに少ないため、報酬モデルの訓練に非常に効率的です。私たちの広範な実験は、HelpSteer2で訓練された報酬モデルがLLMを調整するのに効果的であることを示しています。特に、私たちはSteerLM 2.0を提案します。これは、私たちの報酬モデルによって予測された豊富なマルチ属性スコアを効果的に利用できるモデル調整アプローチです。HelpSteer2はhttps://huggingface.co/datasets/nvidia/HelpSteer2で利用可能で、コードはhttps://github.com/NVIDIA/NeMo-Alignerで利用可能です。
マルチモーダル大規模言語モデル(mLLM)は、大量のテキスト-画像データで訓練されています。ほとんどのmLLMはキャプションのようなデータのみで訓練されていますが、Alayracら[2022]は、テキストと画像が交互に並んだシーケンスを追加で訓練することで、文脈内学習能力が発現することを示しました。しかし、彼らが使用したデータセットM3Wは公開されておらず、英語のみです。彼らの結果を再現しようとする試みはありましたが、公開されたデータセットは英語のみでした。一方、現在の多言語・マルチモーダルデータセットは、キャプションのようなデータのみで構成されているか、中規模、あるいは完全に非公開のデータです。これにより、世界で話されている7,000の他の言語に対するmLLM研究が制限されています。そこで私たちは、mOSCARを紹介します。私たちの知る限り、ウェブからクロールされた初の大規模な多言語・マルチモーダル文書コーパスです。163の言語、3億1500万の文書、2140億のトークン、12億の画像をカバーしています。mOSCARが十分に安全で多様かつ高品質であることを確認するため、慎重に一連のフィルタリングと評価ステップを実施しました。さらに、mOSCARの利点を証明するため、2種類の多言語モデルを訓練しました:(1)mOSCARのサブセットとキャプションデータで訓練したモデル、(2)キャプションデータのみで訓練したモデルです。mOSCARを追加で訓練したモデルは、さまざまな多言語画像-テキストタスクとベンチマークにおいて、few-shot学習性能が大幅に向上し、英語のみのmLLMに関する以前の知見を確認しました。
コンピュータサイエンス(CS)は、人間の知性の複雑さを象徴するものであり、人工知能と現代社会の発展に大きく貢献してきました。しかし、現在の大規模言語モデル(LLM)コミュニティは、特定の基礎スキル(例:数学やコード生成)の分析に焦点を当てすぎており、コンピュータサイエンス分野の総合的な評価を軽視しています。このギャップを埋めるため、我々はCS-Benchを導入します。これは、LLMのコンピュータサイエンスにおける性能を評価するための初の二言語(中国語-英語)ベンチマークです。CS-Benchは約5,000の厳選されたテストサンプルで構成され、コンピュータサイエンスの4つの主要領域にわたる26のサブフィールドをカバーし、さまざまなタスク形式と知識・推論の区分を含んでいます。CS-Benchを活用して、我々は30以上の主要なLLMを包括的に評価し、CS性能とモデル規模の関係を明らかにしました。また、既存のLLMの失敗の原因を定量的に分析し、知識の補完やCS特有の推論など、改善の方向性を強調しました。さらに、クロス能力実験により、LLMのコンピュータサイエンス能力と数学・コーディング能力の間に高い相関があることが示されました。また、数学やコーディングに特化した専門LLMも、いくつかのCSサブフィールドで強力なパフォーマンスを示しました。今後、CS-BenchがLLMのCS分野での応用の基盤となり、LLMの多様な推論能力を評価する新たな道を切り開くことを期待しています。CS-Benchのデータと評価コードはhttps://github.com/csbench/csbenchで公開されています。
現在の4MやUnifiedIOのようなマルチモーダル・マルチタスク基盤モデルは有望な結果を示していますが、実際には、多様な入力を受け入れ多様なタスクを実行するその即戦力は、通常比較的少数のモダリティとタスクに限定されて訓練されていることに制約されています。本論文では、数十の非常に多様なモダリティで単一のモデルを訓練し、大規模なマルチモーダルデータセットとテキストコーパスで共同訓練を行うことで、これらの能力を拡張します。これには、いくつかの意味的および幾何学的モダリティ、DINOv2やImageBindのような最新の最先端モデルからの特徴マップ、SAMや4DHumansのような専門家モデルの擬似ラベル、画像メタデータやカラーパレットなど、モデルとの新しい相互作用方法と生成の制御を可能にする一連の新しいモダリティが含まれます。このプロセスにおける重要なステップは、画像のようなもの、ニューラルネットワークの特徴マップ、ベクトル、インスタンスセグメンテーションや人間のポーズのような構造化データ、またはテキストとして表現可能なデータなど、さまざまなモダリティに対して離散的なトークン化を実行することです。これにより、マルチモーダルモデルの即戦力を拡張し、特に既存のモデルよりも少なくとも3倍以上のタスク/モダリティを解決する1つのモデルを訓練する可能性を示し、性能の低下なしにそれを実現します。これにより、より細かく制御可能なマルチモーダル生成能力が可能になり、多様なデータと目的で訓練されたモデルを統一モデルに蒸留する研究が可能になります。私たちは、数十のモダリティと異なるデータセットを使用して、30億パラメータのモデルの訓練を成功裏にスケールアップしました。結果として得られたモデルと訓練コードは、4m.epfl.chでオープンソースとして公開されています。
近年の画像生成技術の進展により、テキスト条件から高品質な画像を生成することが可能となった。しかし、テキストと参照外観を組み合わせたようなマルチモーダル条件に直面した場合、既存の手法は複数の条件を効果的にバランスさせることが難しく、通常は一つのモダリティを他のモダリティよりも優先してしまう。この課題に対処するため、我々はEMMAを提案する。EMMAは、最先端のテキストから画像への(T2I)拡散モデルであるELLAを基盤とした、マルチモーダルプロンプトを受け入れる新しい画像生成モデルである。EMMAは、革新的なマルチモーダル特徴コネクタ設計を通じて、テキストと追加のモダリティ情報をシームレスに統合し、特別なアテンションメカニズムを使用して画像生成を導く。元のT2I拡散モデルの全てのパラメータを凍結し、追加のレイヤーのみを調整することで、事前学習されたT2I拡散モデルが密かにマルチモーダルプロンプトを受け入れることができるという興味深い発見を明らかにした。この興味深い特性により、異なる既存のフレームワークへの容易な適応が可能となり、EMMAはパーソナライズされた文脈認識画像や動画を生成するための柔軟で効果的なツールとなっている。さらに、学習済みのEMMAモジュールを組み合わせて、複数のモダリティに同時に条件付けされた画像を生成する戦略を導入し、混合マルチモーダルプロンプトを用いた追加のトレーニングを不要とした。広範な実験により、EMMAが生成画像の高忠実度と詳細を維持する効果を実証し、高度なマルチモーダル条件付き画像生成タスクに対する堅牢なソリューションとしての潜在能力を示した。
我々は、あらゆるモダリティを理解し普遍的な表現を学習可能なオムニモーダル知能の構築を提案する。具体的には、Multimodal Context(MiCo)と名付けたスケーラブルな事前学習パラダイムを提案し、事前学習プロセスにおいてモダリティ数、データ量、モデルパラメータを同時にスケールアップすることが可能である。MiCoを用いることで、事前学習済みモデルはマルチモーダル学習において顕著な創発能力を示し、以下のタスクで評価を行った:i) 10種類の異なるモダリティにおける単一モダリティ知覚ベンチマーク、ii) 検索、質問応答、キャプション生成を含む25のクロスモーダル理解タスク、iii) 18のマルチモーダル大規模言語モデルベンチマーク。我々のモデルは、37の新たなstate-of-the-art性能記録を樹立した。本研究がオムニモーダル知能の発展に寄与することを期待する。コードとモデルはhttps://github.com/invictus717/MiCoで公開している。
世界モデルを訓練する主要な方法の一つは、シーケンスの次の要素を出力空間で自己回帰的に予測することです。自然言語処理(NLP)では、これは大規模言語モデル(LLM)が次のトークンを予測する形で現れます。コンピュータビジョン(CV)では、自己回帰モデルが次のフレーム/トークン/ピクセルを予測する形で現れます。しかし、このアプローチは人間の認知と幾つかの点で異なります。第一に、人間の未来に関する予測は内部の認知プロセスに積極的に影響を与えます。第二に、人間は自然に未来の状態に関する予測の妥当性を評価します。この能力に基づいて、第三に、予測が十分であるかを判断することで、人間は予測に動的な時間を割り当てます。この適応的なプロセスは、心理学におけるシステム2思考に類似しています。これらの能力はすべて、人間が高レベルの推論と計画を成功させるために基本的なものです。したがって、これらの人間のような能力を欠く従来の自己回帰モデルの限界に対処するために、我々はエネルギーベース世界モデル(EBWM)を導入します。EBWMは、与えられたコンテキストと予測された未来の状態の適合性を予測するためにエネルギーベースモデル(EBM)を訓練することを含みます。これにより、EBWMは前述した人間の認知の三つの側面すべてをモデルに実現させます。さらに、我々はエネルギーベースモデルに特化した従来の自己回帰トランスフォーマーの変種を開発し、エネルギーベーストランスフォーマー(EBT)と名付けました。我々の結果は、EBWMがCVにおいて従来の自己回帰トランスフォーマーよりもデータとGPU時間に対してスケーリングが優れていること、そしてEBWMがNLPにおいて有望な初期スケーリングを示すことを実証しています。したがって、このアプローチは、システム2思考を可能にし、状態空間をインテリジェントに探索する未来のモデルを訓練するためのエキサイティングな道を提供します。
大規模言語モデル(LLMs)の進歩にもかかわらず、GPT-4やClaudeのようなモデルが示すように、LlamaやMistralなどの小規模なLLMsは、深く一貫性のある対話を生成するのに苦労することが多い。本論文では、小規模LLMsの会話能力と分析能力に内在する制限に対処するため、新たな2段階のCoarse-to-Fine Actorモデルを提案する。我々のアプローチは、Policy-based Coarse Actorから始まり、「Continuous Maximization」と呼ぶ技術を採用する。Coarse Actorは、人間の好みに合致した分析と推論のスタイルに適した、知識豊富なプールを強化する。RLHFプロセスを通じて、Continuous Maximizationという戦略を用い、出力長の制限を動的かつ適応的に拡張し、より詳細で分析的な内容の生成を可能にする。その後、Fine Actorがこの分析的な内容を洗練し、Coarse Actorから生成される過剰な冗長情報に対処する。我々は「Knowledge Residue Merger」アプローチを導入し、Coarse Actorからの内容を洗練し、既存のInstructionモデルと統合することで、品質と正確性を向上させ、冗長性を削減する。我々はこの方法論を人気のMistralモデルに適用し、Mistral-C2Fを作成した。このモデルは、11の一般的な言語タスクとMT-Bench対話タスクにおいて、同規模のモデルや13Bおよび30Bパラメータのより大規模なモデルを上回る優れた性能を発揮した。我々のモデルは、会話能力と分析的推論能力を大幅に向上させた。
私たちは、テキストから画像(T2I)生成モデルが現実世界の常識に合致した画像を生成する能力を評価するための新しいタスクとベンチマークを提案します。これを「Commonsense-T2I」と呼びます。例えば、「電気のない電球」と「電気のある電球」というように、同じ動作語を含むがわずかに異なる2つの対立的なテキストプロンプトを与え、T2Iモデルが視覚的常識推論を行えるかどうかを評価します。具体的には、「電球が消えている」と「電球が点灯している」という対応する画像を生成できるかどうかを検証します。Commonsense-T2Iは対立的な課題を提示し、ペアワイズのテキストプロンプトと期待される出力を提供します。このデータセットは専門家によって慎重に手作業でキュレーションされ、常識のタイプや期待される出力の可能性などの細かいラベルが付与されており、モデルの挙動を分析するのに役立ちます。 私たちは、さまざまな最先端(SOTA)のT2Iモデルをベンチマークし、驚くべきことに、画像合成と現実世界の写真との間には依然として大きなギャップがあることを発見しました。例えば、DALL-E 3モデルでさえCommonsense-T2Iで48.92%しか達成できず、Stable Diffusion XLモデルはわずか24.92%の精度しか達成できませんでした。私たちの実験では、GPTを活用したプロンプトでもこの課題を解決できないことが示され、その欠陥の可能性のある理由について詳細な分析を行いました。私たちは、Commonsense-T2IがT2Iの常識チェックのための高品質な評価ベンチマークとして機能し、現実世界の画像生成の進歩を促進することを目指しています。
ビデオ生成は、画像生成を超えた多くの独自の課題を抱えています。時間次元が導入されることで、フレーム間で広範なバリエーションが生じ、一貫性や連続性が損なわれる可能性があります。本研究では、単純なアクションの評価を超え、生成されたビデオが現実世界のビデオのように、時間の経過とともに新しい概念の出現とそれらの関係遷移を取り入れるべきであると主張します。ビデオ生成モデルの時間的構成性(Temporal Compositionality)を評価するために、TC-Benchというベンチマークを提案します。これは、慎重に作成されたテキストプロンプト、対応するグラウンドトゥルースビデオ、および堅牢な評価指標から成ります。プロンプトはシーンの初期状態と最終状態を明確に表現し、フレーム開発の曖昧さを効果的に減らし、遷移の完了を簡潔に評価します。さらに、プロンプトに対応する整列された現実世界のビデオを収集することで、TC-Benchの適用範囲をテキスト条件付きモデルから、生成的なフレーム補間を実行できる画像条件付きモデルに拡張します。また、生成されたビデオにおける構成要素の遷移の完全性を測定する新しい指標を開発し、これが既存の指標よりも人間の判断と有意に高い相関を示すことを実証します。我々の包括的な実験結果は、ほとんどのビデオ生成器が構成変化の20%未満しか達成できないことを明らかにし、将来の改善のための大きな余地があることを強調しています。分析によると、現在のビデオ生成モデルは、構成変化の記述を解釈し、異なる時間ステップにわたって様々な構成要素を合成するのに苦労しています。
単一視点の大規模再構築モデル(LRM)を訓練するデフォルトの戦略は、合成3Dアセットやマルチビューキャプチャの大規模データセットを使用した完全教師ありのアプローチに従っています。これらのリソースは訓練プロセスを簡素化しますが、既存のデータセットを超えてスケールアップすることは難しく、必ずしも現実の物体形状の分布を代表しているわけではありません。これらの制限に対処するため、本論文では、単一視点の実世界画像を使用して訓練可能な最初のLRMシステムであるReal3Dを紹介します。Real3Dは、既存の合成データと多様な単一視点の実画像の両方から恩恵を受けることができる新しい自己訓練フレームワークを導入します。我々は、3Dのグラウンドトゥルースや新規ビューがない訓練例に対しても、ピクセルレベルおよびセマンティックレベルでLRMを監督することを可能にする2つの教師なし損失を提案します。さらに、性能を向上させ、画像データをスケールアップするために、野外画像から高品質な例を収集する自動データキュレーション手法を開発しました。我々の実験では、Real3Dが、実データと合成データ、およびドメイン内とドメイン外の形状を含む4つの多様な評価設定において、従来の研究を一貫して上回ることを示しています。コードとモデルはこちらで確認できます: https://hwjiang1510.github.io/Real3D/
本研究は、生成AIを用いたインコンテキスト学習(ICL)におけるハルシネーション率の推定に関するものである。ICLでは、条件付き生成モデル(CGM)にデータセットをプロンプトとして与え、そのデータセットに基づいて予測を行うよう求められる。ICLのベイズ的解釈では、CGMが潜在パラメータとデータの未知のベイズモデルに対する事後予測分布を計算していると仮定する。この視点に基づき、ハルシネーションを、真の潜在パラメータの下で低確率となる生成予測と定義する。我々は、ICL問題(すなわち、CGM、データセット、予測質問)を入力として、CGMがハルシネーションを生成する確率を推定する新たな手法を開発した。この手法では、モデルからクエリと応答を生成し、その応答の対数確率を評価するだけでよい。我々は、大規模言語モデルを用いた合成回帰タスクおよび自然言語ICLタスクにおいて、この手法を実証的に評価した。
トランスフォーマーの自己回帰型推論は、Key-Value(KV)キャッシュの活用によって大きな恩恵を受けますが、モデルサイズ、バッチサイズ、シーケンス長がスケールアップするにつれて、メモリのボトルネックが深刻化する可能性があります。本論文では、Multi-Layer Key-Value(MLKV)共有という新たなアプローチを提案します。これは、トランスフォーマーの層を跨いでKV共有を拡張し、Multi-Query Attention(MQA)やGrouped-Query Attention(GQA)を超えるメモリ使用量の削減を実現します。アップトレーニングされたPythia-160Mのバリエーションを用いた様々なNLPベンチマークおよび推論メトリクスでの評価により、MLKVが性能の低下を最小限に抑えつつメモリ使用量を大幅に削減し、MQAと比較してKVキャッシュサイズを最大6分の1にまで縮小できることが示されました。これらの結果は、MLKVがスケールアップしたトランスフォーマーモデルの効率的なデプロイメントにおいて大きな可能性を秘めていることを示しています。コードはhttps://github.com/zaydzuhri/pythia-mlkvで公開しています。
大規模言語モデル(LLMs)の急速な進歩に伴い、堅牢で挑戦的なベンチマークが求められています。Chatbot Arenaのようなリーダーボードは、LLMsの応答が人間の好みにどれだけ一致するかに基づいてランク付けを行います。しかし、感情的知性、創造的ライティング、説得力などのタスクは非常に主観的であり、多くの場合、大多数の人間の合意を欠いています。審査員は、どの応答が優れているかについて和解不可能な意見の相違を持つ可能性があります。高度に主観的なタスクにおいてLLMsをランク付けするという課題に対処するため、我々は新しいベンチマークフレームワークである「言語モデル評議会(Language Model Council, LMC)」を提案します。LMCは民主的なプロセスを通じて運営され、1)平等な参加を通じてテストセットを策定し、2)評議会メンバー間でテストを実施し、3)集団の陪審として応答を評価します。我々は、20の最新LLMsで構成される評議会を、対人ジレンマに対する応答というオープンエンドの感情的知性タスクに展開しました。結果は、LMCが個々のLLM審査員よりも分離可能で堅牢、偏りが少ないランキングを生成し、他のベンチマークと比較して人間が確立したリーダーボードとの一貫性が高いことを示しています。
視覚質問応答(VQA)はマルチモーダルAIにおける重要なタスクであり、視覚と言語のモデルが視覚的およびテキストデータに存在する知識を理解し、推論する能力をテストするためによく使用されます。しかし、現在のVQAモデルの多くは、主に英語と少数の主要な世界言語に焦点を当てたデータセットを使用しており、画像も通常は西洋中心のものです。最近の取り組みではVQAデータセットでカバーされる言語の数を増やそうとしていますが、低リソース言語の多様性は依然として不足しています。さらに重要なことに、これらのデータセットは翻訳や他のアプローチを通じて言語範囲を拡張することが多いものの、通常は画像をそのままにしているため、文化的表現が狭くなっています。これらの制限に対処するため、我々はCVQAという新しい文化的多様性を持つ多言語視覚質問応答ベンチマークを構築しました。このベンチマークは、豊富な言語と文化をカバーするように設計されており、データ収集プロセスにネイティブスピーカーや文化専門家を関与させています。その結果、CVQAは4大陸の28か国から文化的に動機付けられた画像と質問を含み、11のスクリプトを持つ26言語をカバーし、合計9,000の質問を提供します。その後、いくつかのマルチモーダル大規模言語モデル(MLLM)をCVQAでベンチマークし、このデータセットが現在の最先端モデルにとって挑戦的であることを示します。このベンチマークは、マルチモーダルモデルの文化的能力とバイアスを評価するためのプロービング評価スイートとして機能し、この分野における文化的認識と言語的多様性を高めるためのさらなる研究努力を促進することが期待されます。
本論文では、完全に合成された3Dデータを用いてトレーニングされた大規模再構成モデル(LRM)であるLRM-Zeroを紹介します。LRM-Zeroは、高品質なスパースビュー3D再構成を実現します。LRM-Zeroの中核となるのは、プロシージャルに生成された3Dデータセット「Zeroverse」です。Zeroverseは、単純なプリミティブ形状からランダムなテクスチャリングと拡張(例:高さフィールド、ブーリアン差分、ワイヤーフレーム)を用いて自動的に合成されます。従来の3Dデータセット(例:Objaverse)が現実の3Dデータを近似するために人間によってキャプチャーまたは作成されるのに対し、Zeroverseは現実的なグローバルセマンティクスを完全に無視しつつ、現実のオブジェクトと局所的に類似またはそれ以上に複雑な幾何学的およびテクスチャの詳細を豊富に含んでいます。我々は、完全に合成されたZeroverseでトレーニングされたLRM-Zeroが、現実世界のオブジェクトの再構成においてObjaverseでトレーニングされたモデルと競合する高い視覚品質を達成できることを実証します。また、LRM-Zeroの能力とトレーニングの安定性に寄与するZeroverseのいくつかの重要な設計選択について分析します。本研究は、3Dビジョンのコアタスクの一つである3D再構成が、現実世界のオブジェクトのセマンティクスなしに解決可能であることを示しています。Zeroverseのプロシージャル合成コードとインタラクティブな可視化は、https://desaixie.github.io/lrm-zero/ で公開されています。
一般的に、拡散プロセスに基づく画像生成モデルは、トレーニングデータでは決して発生しないサンプル、いわゆる「幻覚」を生成すると言われています。しかし、このような幻覚はどこから来るのでしょうか?本論文では、拡散モデルにおける特定の失敗モードを研究し、これを「モード補間」と呼びます。具体的には、拡散モデルがトレーニングセット内の近接するデータモード間を滑らかに「補間」し、元のトレーニング分布のサポート外のサンプルを生成することを発見しました。この現象により、拡散モデルは実データには存在しないアーティファクト(すなわち幻覚)を生成します。我々はこの現象の原因とその現れを体系的に研究します。1次元および2次元ガウシアンを用いた実験を通じて、拡散モデルのデコーダにおける不連続な損失ランドスケープが、滑らかな近似を行うことで幻覚を引き起こす領域を生み出すことを示します。また、様々な形状を持つ人工データセットを用いた実験を通じて、幻覚が存在しなかった形状の組み合わせを生成することを示します。最後に、拡散モデルが実際にサポート外に出て幻覚を生成していることを認識していることを示します。これは、生成サンプルの軌跡が最終的な逆サンプリングプロセスに向かう際の高い分散によって捉えられます。この分散を捉えるための簡単な指標を用いることで、生成時に幻覚の95%以上を除去しつつ、サポート内のサンプルの96%を保持することができます。我々は、MNISTおよび2次元ガウシアンデータセットを用いた実験を通じて、合成データに対する再帰的トレーニングの崩壊(および安定化)における幻覚(およびその除去)の影響を示すことで、この探求を締めくくります。コードはhttps://github.com/locuslab/diffusion-model-hallucinationで公開しています。
超低ビットレート画像圧縮は、挑戦的かつ要求の高いトピックです。大規模マルチモーダルモデル(LMMs)の発展に伴い、Image-Text-Imageというクロスモダリティ圧縮(CMC)のパラダイムが登場しました。従来のコーデックと比較して、このセマンティックレベルの圧縮は画像データサイズを0.1%以下に削減することが可能であり、強力な応用ポテンシャルを持っています。しかし、CMCは元の画像との一貫性や知覚品質において一定の欠点があります。この問題を解決するため、我々はCMC-Benchを導入しました。これは、画像圧縮のためのImage-to-Text(I2T)とText-to-Image(T2I)モデルの協調性能を評価するベンチマークです。このベンチマークは、18,000枚と40,000枚の画像をそれぞれカバーし、6つの主流I2Tモデルと12のT2Iモデルを検証します。これには、人間の専門家によって注釈付けられた160,000の主観的嗜好スコアが含まれます。超低ビットレートにおいて、本論文は、いくつかのI2TとT2Iモデルの組み合わせが最先端の視覚信号コーデックを凌駕していることを証明し、同時に、LMMsが圧縮タスクに向けてさらに最適化できる点を強調しています。我々は、LMM開発者がこのテストに参加し、視覚信号コーデックプロトコルの進化を促進することを奨励します。
主題駆動型のテキストから画像生成において、最近の研究では、多数の画像ペアを含む合成データセットでモデルを訓練することで優れた性能を達成しています。これらのデータセットで訓練された生成モデルは、任意のテスト画像から特定の主題に沿った画像をゼロショット方式で生成することができます。それらは、テスト画像に対する追加のファインチューニングを必要とする手法よりも優れた性能を発揮します。しかし、そのようなデータセットを作成するコストは、ほとんどの研究者にとって非常に高額です。単一の訓練ペアを生成するために、現在の手法では、事前訓練されたテキストから画像モデルを主題画像でファインチューニングして細部を捉え、その後、創造的なテキストプロンプトに基づいて同じ主題の画像を作成します。その結果、数百万の主題を含む大規模なデータセットを構築するには、数十万GPU時間が必要となる場合があります。この問題に対処するために、私たちはToffeeを提案します。これは、主題駆動型の編集と生成のためのデータセットを効率的に構築する方法です。具体的には、私たちのデータセット構築では、主題レベルのファインチューニングを一切必要としません。2つの生成モデルを事前訓練した後、無限の数の高品質なサンプルを生成することができます。私たちは、主題駆動型の画像編集と生成のための最初の大規模データセットを構築しました。このデータセットには、500万の画像ペア、テキストプロンプト、およびマスクが含まれています。私たちのデータセットは、以前の最大のデータセットの5倍の規模でありながら、コストは数万GPU時間低くなっています。提案されたデータセットをテストするために、私たちはまた、主題駆動型の画像編集と生成の両方が可能なモデルを提案します。提案されたデータセットでモデルを訓練するだけで、競争力のある結果が得られ、提案されたデータセット構築フレームワークの有効性を示しています。