翻訳付きの日次キュレーションされたAI研究論文
視覚機能を備えた大規模言語モデル(VLMs)、例えばGPT-4oやGemini 1.5 Proは、無数の画像-テキストアプリケーションを駆動し、多くの視覚理解ベンチマークで高いスコアを獲得しています。しかし、我々はVLMsが人間にとって極めて簡単な7つの視覚タスクに失敗することを発見しました。例えば、(a) 2つの円が重なっているかどうかを識別する、(b) 2つの線が交差しているかどうかを判断する、(c) 単語の中でどの文字が丸で囲まれているかを特定する、(d) オリンピックのようなロゴに含まれる円の数を数える、といったタスクです。4つの最先端VLMsの驚くほど低いパフォーマンスは、彼らの視覚が、最良の場合でも近視の人が細部をぼやけて見るようなものであり、最悪の場合では、盲目の知的な人が推測を立てるようなものであることを示唆しています。コードは以下で利用可能です: https://vlmsareblind.github.io/
合成データは、大規模および小規模な言語モデルの開発を加速する上でますます重要になっています。いくつかの成功事例がある一方で、研究者たちはモデルの崩壊や他のモデルを模倣することの欠点について懸念を表明しています。この不一致は、合成データの品質と多様性が大きく異なるという事実に起因しています。合成データを効果的に使用するためには、通常、データをキュレーションするために多大な人的労力が必要です。私たちは、特に強力なモデルが別のモデルに新しいスキルや振る舞いを教えるためにデータを作成する、ポストトレーニングのための合成データの使用に焦点を当て、この設定を「生成的教授法(Generative Teaching)」と呼びます。私たちは、多様で高品質な合成データを自動的に大量に作成するための拡張可能なエージェントフレームワークであるAgentInstructを紹介します。AgentInstructは、テキストドキュメントやコードファイルなどの生データをシードとして使用して、プロンプトとレスポンスの両方を作成できます。私たちは、テキスト編集、創造的な執筆、ツールの使用、コーディング、読解力などのさまざまなスキルを言語モデルに教えるための25Mペアのポストトレーニングデータセットを作成することで、AgentInstructの有用性を実証します。このデータセットは、任意のベースモデルの指示チューニングに使用できます。私たちは、このデータを使用してMistral-7bをポストトレーニングしました。結果として得られたモデルOrca-3をMistral-7b-Instruct(同じベースモデルを使用)と比較すると、多くのベンチマークで大幅な改善が観察されました。例えば、AGIEvalで40%、MMLUで19%、GSM8Kで54%、BBHで38%、AlpacaEvalで45%の改善が見られました。さらに、LLAMA-8B-instructやGPT-3.5-turboなどの他のモデルを一貫して上回りました。
大規模言語モデル(LLM)の急速な進展は、高度に有能な自律エージェントの開発への道を開いてきました。しかし、既存のマルチエージェントフレームワークは、自らのエコシステム内で定義されたエージェントに依存するため、多様な有能なサードパーティエージェントを統合するのに苦労しています。また、ほとんどのフレームワークが単一デバイス設定に限定されているため、分散環境のシミュレーションにも課題を抱えています。さらに、これらのフレームワークはハードコードされた通信パイプラインに依存することが多く、動的なタスク要件への適応性が制限されています。インターネットの概念に着想を得て、我々は「エージェントのインターネット(Internet of Agents, IoA)」を提案します。これは、LLMベースのマルチエージェント協働のための柔軟でスケーラブルなプラットフォームを提供し、これらの制限を克服する新しいフレームワークです。IoAは、エージェント統合プロトコル、インスタントメッセージングのようなアーキテクチャ設計、およびエージェントチーム編成と会話フロー制御のための動的メカニズムを導入します。一般的なアシスタントタスク、具現化AIタスク、および検索拡張生成ベンチマークにおける広範な実験を通じて、IoAが最先端のベースラインを一貫して上回り、異種エージェント間の効果的な協力を促進する能力を示しています。IoAは、エージェントがシームレスに協力してより大きな知性と能力を達成できる、インターネットのような環境で多様なエージェントを結びつける一歩を表しています。我々のコードベースはhttps://github.com/OpenBMB/IoAで公開されています。
大規模視覚言語モデル(LVLM)の性能は、そのトレーニングデータセットの規模と品質に依存します。既存のビデオ指示チューニングデータセットは、ビデオキャプションを用いて大規模言語モデルに質問応答ペアを生成させることで作成されているため、多様性に欠け、主に記述的な内容となっています。一方で、多様なラベルと監督情報を持つ多くのラベル付きビデオデータセットが存在しますが、これらをLVLMに統合することは容易ではありません。本論文では、ビデオ自己学習アプローチとして初めての「Video Self-Training with augmented Reasoning(Video-STaR)」を提案します。Video-STaRは、任意のラベル付きビデオデータセットをビデオ指示チューニングに活用することを可能にします。Video-STaRでは、LVLMが指示生成とファインチューニングを繰り返し行うことで、(I) 一般的なビデオ理解が向上し、(II) 既存の監督情報を用いて新しい下流タスクに適応することを示します。生成フェーズでは、LVLMに回答を提案させます。その後、元のビデオラベルを含む回答のみをフィルタリングし、生成されたデータセットでLVLMを再トレーニングします。正しいビデオラベルを含む生成された回答のみをトレーニングに使用することで、Video-STaRはこれらの既存のビデオラベルを弱い監督としてビデオ指示チューニングに活用します。実験結果は、Video-STaRを適用したLVLMが、(I) 一般的なビデオQAにおいてTempCompassの性能が10%向上し、(II) 下流タスクにおいてKinetics700-QAの精度が20%、FineDivingのアクション品質評価が15%向上することを示しています。
本論文では、ポートレート画像から高精細な3Dアバターを生成するRodinHDを提案する。既存手法ではヘアスタイルなどの細部を捉えることが困難であったが、本手法ではこの課題に取り組む。まず、多くのアバターに対してtriplaneを順次フィッティングする際に、MLPデコーダの共有スキームによって引き起こされる破滅的忘却という見過ごされていた問題を特定した。この問題を克服するため、新たなデータスケジューリング戦略と重み統合正則化項を導入し、デコーダの細部をより鮮明にレンダリングする能力を向上させた。さらに、ポートレート画像のガイダンス効果を最適化するため、豊富な2Dテクスチャの手がかりを捉える階層的表現をより細かい粒度で計算し、それらをクロスアテンションを介して3D拡散モデルの複数の層に注入する。46Kのアバターデータセットで学習し、triplaneに最適化されたノイズスケジュールを用いることで、従来手法よりも顕著に優れた細部を持つ3Dアバターを生成し、実世界のポートレート入力にも汎化可能なモデルを実現した。
ヘブライ語のような低リソース言語での大規模言語モデル(LLM)のトレーニングは、独特の課題を伴います。本論文では、Mistralモデルを基にしたDictaLM2.0とDictaLM2.0-Instructという2つのLLMを紹介します。これらは、ヘブライ語と英語の約2000億トークンに及ぶ大規模なコーパスでトレーニングされました。事前学習済みモデルを新しい言語に適応させるには、ゼロからモデルをトレーニングする場合や、英語のようなリソース豊富な言語で既存モデルをさらにトレーニングする場合とは大きく異なる専門的な技術が必要です。本論文では、ヘブライ語の言語特性に効果的に学習・適応するための新しいトレーニング手法を概説します。さらに、DictaLM2.0-Instructを包括的な指示データセットでファインチューニングし、タスク固有の指示に対する性能を向上させました。モデルを厳密に評価するため、ヘブライ語LLM評価のための新しいベンチマークスイートを導入しました。これには、質問応答、感情分析、ウィノグラードスキーマチャレンジ、翻訳、要約など多様なタスクが含まれます。本研究は、低リソース言語でのLLMトレーニングの複雑さに対処するだけでなく、他のLLMを様々な非英語言語に適応させるためのフレームワークを提案し、多言語NLPの広範な分野に貢献します。
Soraの高モーション強度と長い一貫性のある動画は、ビデオ生成の分野に大きな影響を与え、前例のない注目を集めています。しかし、既存の公開データセットは、主に短い動画と低いモーション強度、簡潔なキャプションを含むため、Soraのような動画を生成するには不十分です。これらの問題を解決するため、我々はMiraDataを提案します。これは、動画の長さ、キャプションの詳細度、モーションの強度、視覚的品質において、従来のデータセットを凌駕する高品質なビデオデータセットです。MiraDataは、多様な手動選択されたソースからキュレーションされ、意味的に一貫したクリップを得るためにデータを細心の注意を払って処理します。GPT-4Vを使用して構造化されたキャプションを注釈付けし、4つの異なる視点からの詳細な説明と要約された密なキャプションを提供します。ビデオ生成における時間的一貫性とモーション強度をより適切に評価するために、我々はMiraBenchを導入します。これは、3D一貫性とトラッキングベースのモーション強度メトリクスを追加することで、既存のベンチマークを強化します。MiraBenchには、150の評価プロンプトと、時間的一貫性、モーション強度、3D一貫性、視覚的品質、テキストとビデオの整合性、分布の類似性をカバーする17のメトリクスが含まれています。MiraDataの有用性と有効性を実証するために、我々のDiTベースのビデオ生成モデルであるMiraDiTを使用して実験を行います。MiraBenchでの実験結果は、特にモーション強度において、MiraDataの優位性を示しています。
BM25Sを紹介します。これはNumpyとScipyのみに依存する、効率的なPythonベースのBM25実装です。BM25Sは、インデックス作成時にBM25スコアを積極的に計算し、それを疎行列に保存することで、最も人気のあるPythonベースのフレームワークと比較して最大500倍の高速化を実現しています。また、人気のある商用製品で使用されている高度に最適化されたJavaベースの実装と比較しても、大幅な高速化を達成しています。最後に、BM25Sは、Kamphuisら(2020)に基づく5つのBM25バリアントの正確な実装を再現しており、新しいスコアシフト手法を使用して非疎バリアントにも積極的なスコアリングを拡張しています。コードはhttps://github.com/xhluca/bm25sで公開されています。
記事の要約や与えられた文章に基づく質問への回答を求められた際、大規模言語モデル(LLM)は詳細を捏造し、入力コンテキストに対して不正確な根拠のない回答を返すことがあります。本論文では、このようなコンテキストに基づく捏造(文脈的幻覚)を検出するためのシンプルなアプローチを提案します。我々は、文脈的幻覚が、LLMが提供されたコンテキスト内の情報に対してどれだけ注意を払うか、あるいは自身の生成にどれだけ依存するかに関連していると仮定します。この直感に基づき、各アテンションヘッドにおけるコンテキストと新たに生成されたトークンに対するアテンションウェイトの比率を入力特徴量とする、シンプルな幻覚検出モデルを提案します。この「Lookback Ratio」特徴量に基づく線形分類器は、LLMの隠れ状態全体やテキストベースの含意モデルを利用するより複雑な検出器と同等の効果を持つことがわかりました。このLookback Ratioベースの検出器「Lookback Lens」は、タスクやモデルをまたいで転移可能であり、7Bモデルで訓練された検出器を再訓練なしでより大規模な13Bモデルに適用できることが確認されました。さらに、この検出器を文脈的幻覚の軽減に適用し、シンプルな分類器ガイド付きデコードアプローチが幻覚の量を削減できることを示します。例えば、XSum要約タスクにおいて9.6%の幻覚削減が確認されました。
Leanのようなコンピュータ検証可能な形式言語を用いて数学定理を証明することは、数学的推論に大きな影響を与えます。形式定理証明の一つのアプローチとして、自然言語(NL)証明に基づいて大規模言語モデル(LLMs)を使用して完全な証明を生成する方法があります。同様の手法は、コード生成において有望な結果を示しています。しかし、現代のほとんどのLLMsは、NLと形式言語(FL)の定理証明データの整合性が不足しているため、最適な性能を発揮していません。この不足は、LLMsを訓練する方法論や、形式証明を構成するためにそれらの能力を十分に活用する技術の欠如を引き起こしています。これらの課題に対処するため、本論文では、汎用LLMをLean4の専門家に訓練するためのエンドツーエンドのフレームワークである**TheoremLlama**を提案します。このフレームワークは、NL-FL整合データセット生成方法、LLM形式定理証明器の訓練アプローチ、およびLLM Lean4証明作成技術を含んでいます。データセット生成方法を使用して、NL-FL整合およびブートストラップされたデータセットである*Open Bootstrapped Theorems*(OBT)を提供します。このフレームワークの重要な革新点は、NL証明をLean4コードに統合して訓練データセットを作成するNL-FLブートストラップ方法であり、LLMsのNL推論能力を形式推論に活用します。**TheoremLlama**フレームワークは、MiniF2F-ValidおよびTestデータセットにおいて、それぞれ36.48%および33.61%の累積精度を達成し、GPT-4ベースラインの22.95%および25.41%を上回りました。また、モデルのチェックポイントと生成されたデータセットをオープンソース化し、すべてのコードを公開する予定です。
事前学習済みモデルは、ファインチューニングによって適応可能な強力な汎用表現を生成します。事前学習済みモデルに対する学習済み重みの差分は、タスクベクトルとして知られ、ファインチューニングの方向性と歩幅を特徴づけます。タスクベクトルの重要性は、それらに対する単純な算術演算を用いることで、異なるドメインからの多様な表現を組み合わせることができる点にあります。本論文は、タスクベクトルのこれらの特性を基盤とし、(1) タスクベクトルの構成要素、特にパラメータブロックが同様の特性を示すかどうか、および (2) そのようなブロックをどのように知識の構成と転移を強化するために利用できるか、という問いに答えることを目指します。この目的のために、我々はaTLASを導入します。これは、異なる学習済み係数でパラメータブロックを線形結合し、タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムです。このような線形結合は、事前学習済みモデルの低い内在次元性を明示的に活用し、学習可能なパラメータはわずか数個であることを示します。さらに、パラメータブロックの構成は、既に学習された表現を活用することで、大量のデータへの依存を軽減します。我々は、タスク算術、少数ショット認識、テスト時適応において、教師ありまたは教師なしの目的で、本手法の有効性を実証します。特に、(1) 学習された異方性スケーリングにより、タスクベクトルがより分離され、構成時の干渉が少なくなること、(2) タスクベクトルの構成が、ラベル付きデータが少ないか全くない場合でも優れており、ドメインシフトに陥りにくく、汎化性能が向上すること、(3) 異なるタスクベクトル間で最も情報量の多いパラメータブロックを事前に混合することで、メモリフットプリントを削減し、知識転移の柔軟性を向上できることを示します。さらに、aTLASがPEFT手法として、特にデータが少ない場合に有効である可能性を示し、そのスケーラビリティを実証します。
人間は、複雑なシーンを構成性を持って記述し、リンクや関係性で豊かにされた簡潔なテキスト記述を用います。視覚言語研究では、構成性理解能力を持つモデルの開発を目指してきましたが、既存のデータセットの大部分は依然として画像をプレーンテキストで記述しており、この点が反映されていません。本研究では、ラベル付きグラフ構造を用いて画像を記述する新しいアノテーション戦略、グラフベースキャプショニング(GBC)を提案します。GBCのノードは、第一段階で物体検出と密なキャプショニングツールを再帰的にネストしてエンティティノードを発見・記述し、第二段階で新しいタイプのノードを用いてエンティティ間の構成と関係を強調することでリンクされます。GBCのすべてのノードはプレーンテキスト記述を保持しているため、自然言語の柔軟性を維持しつつ、エッジに階層情報をエンコードすることができます。GBCは、既存のマルチモーダルLLMとオープン語彙検出モデルを用いて自動生成可能であることを示し、CC12Mデータセットの約1000万枚の画像に対してGBCアノテーションを収集した新しいデータセットGBC10Mを構築しました。GBC10Mを用いて、CLIPトレーニングで測定されたGBCによって発見されたノードキャプションの豊富さを実証します。GBCノードのアノテーション、特に構成と関係ノードに保存されたものを使用すると、他のデータセット形式と比較して下流モデルのパフォーマンスが大幅に向上することを示します。さらに、GBCが提供する機会を探るため、GBCグラフ全体を活用できる新しいアテンションメカニズムを提案し、グラフ構造を組み込むことの追加的な利点を示す有望な実験結果を得ました。私たちのデータセットはhttps://huggingface.co/graph-based-captionsで公開されています。
既存のテキストからビデオを生成する拡散モデルは、事前学習においてテキストのみのエンコーダに依存しています。この制約は、大規模なマルチモーダルプロンプトビデオデータセットの欠如に起因し、視覚的基盤の不足とマルチモーダル統合における汎用性と応用の制限を引き起こしています。この問題に対処するため、我々は検索手法を用いてコンテキスト内の例を所与のテキストプロンプトとペアリングし、大規模なマルチモーダルプロンプトデータセットを構築しました。その後、同一モデル内で多様なビデオ生成タスクを可能にするために、二段階のトレーニング戦略を採用しました。第一段階では、これらの拡張データセット上で事前学習を行うためのマルチモーダル条件付きビデオ生成フレームワークを提案し、基盤となるビデオ生成モデルを確立しました。第二段階では、第一段階のモデルをマルチモーダル命令を組み込んだ三つのビデオ生成タスクでファインチューニングしました。このプロセスにより、モデルの多様な入力とタスクを処理する能力がさらに洗練され、マルチモーダル情報のシームレスな統合が保証されます。この二段階のトレーニングプロセスを経て、VIMIはマルチモーダル理解能力を示し、提供された入力に基づいた文脈豊かでパーソナライズされたビデオを生成します(図1参照)。従来の視覚的基盤を持つビデオ生成手法と比較して、VIMIは大規模な動きを伴いながらも意味的制御を保持し、一貫性と時間的整合性のあるビデオを合成することができます。最後に、VIMIはUCF101ベンチマークにおいて、最先端のテキストからビデオを生成する結果を達成しました。
大規模言語モデル(LLM)は、しばしば幻覚やシーケンスの繰り返しといった望ましくない振る舞いを示す。我々は、これらの振る舞いを不確実性下でモデルが示すフォールバックとして捉え、それらの関連性を調査することを提案する。フォールバックの振る舞いを、シーケンスの繰り返し、退化したテキスト、幻覚の3つに分類し、事前学習トークン数、パラメータ数、指示追従訓練の有無が異なる同一ファミリのモデルにおいて広範に分析する。実験の結果、これらの全ての軸において、フォールバックの振る舞いに明確で一貫した順序が見られることが明らかになった。つまり、LLMがより進歩するほど(より多くのトークンで訓練される、より多くのパラメータを持つ、指示チューニングされている)、そのフォールバックの振る舞いはシーケンスの繰り返しから退化したテキストへ、そして幻覚へと移行する。さらに、この同じ順序は、最も性能の高いモデルにおいても、単一の生成プロセス全体を通じて観察される。不確実性が増すにつれて、モデルは幻覚を生成することから退化したテキストを生成し、そしてシーケンスの繰り返しへと移行する。最後に、ランダムサンプリングのような一般的なデコード技術が、シーケンスの繰り返しといった望ましくない振る舞いを軽減する一方で、検出が難しい幻覚を増加させることを示す。
大規模言語モデル(LLM)は、最近、オンライン上でのユーザーの質問に対する主要な回答源となっています。流暢な回答を提供する能力がある一方で、その正確性と信頼性には重大な課題が存在します。これは特に、事実に基づいた正確な回答がより求められる生物医学のような敏感な分野において顕著です。本論文では、生成された回答の信頼性を向上させるために設計された生物医学的検索拡張生成(RAG)システムを紹介します。このシステムは、参照型質問応答用にファインチューニングされたLLMを基盤としており、PubMedから検索された関連するアブストラクトがプロンプトを通じてLLMのコンテキストに入力として渡されます。その出力は、PubMedのアブストラクトに基づいた回答であり、各記述は適切に参照されているため、ユーザーは回答を検証することができます。我々の検索システムは、PubMed検索エンジンと比較して23%の絶対的な改善を達成しています。小規模なサンプルに対する手動評価に基づくと、我々のファインチューニングされたLLMコンポーネントは、関連するアブストラクトを参照する点においてGPT-4 Turboと同等の結果を達成しています。我々は、モデルのファインチューニングに使用されたデータセットと、Mistral-7B-instruct-v0.1およびv0.2に基づくファインチューニングされたモデルを公開しています。
近年の言語モデリングの進歩は、時系列データに適用した際に有望な結果を示しています。特に、事前学習済みの大規模言語モデル(LLM)を時系列分類タスクにファインチューニングすることで、標準的なベンチマークにおいて最先端(SOTA)の性能を達成しています。しかし、これらのLLMベースのモデルは、モデルサイズが大きく、学習可能なパラメータ数が数百万に及ぶという重大な欠点があります。本論文では、時系列領域における言語モデリングの成功を活用するための代替アプローチを提案します。LLMをファインチューニングする代わりに、言語埋め込みモデルを用いて時系列を埋め込み、その埋め込みを畳み込みニューラルネットワーク(CNN)と多層パーセプトロン(MLP)で構成されたシンプルな分類ヘッドと組み合わせます。確立された時系列分類ベンチマークデータセットを用いて広範な実験を行い、LETS-Cが分類精度において現在のSOTAを上回るだけでなく、SOTAモデルと比較して平均で学習可能なパラメータ数の14.5%しか使用しない軽量なソリューションを提供することを実証しました。我々の研究結果は、言語エンコーダを活用して時系列データを埋め込み、シンプルでありながら効果的な分類ヘッドと組み合わせることが、軽量なモデルアーキテクチャを維持しながら高性能な時系列分類を実現するための有望な方向性であることを示唆しています。